[討論] google的搜尋方式

作者peanut97 (花生)

看板Soft_Job

標題[討論] google的搜尋方式

時間Wed Nov 27 22:52:25 2013

一般常見的搜尋方式，都是輸入一個字串AAA，便會找出文章： ..........AAA...BBB..CCC...AAA..... 中每個AAA所在的位置(index)，再秀出來。市面上好像有九成的網站、程式都是這種的但是google搜尋卻可以輸入"AAA CCC"，進而找出這篇文章： ..........AAA...BBB..CCC...AAA..... "AAA CCC"這個字串，google大神不僅可以找到完全符合"AAA CCC"字串的文章也能找到「有AAA，也有CCC，但兩者不見得靠得很近，距離很遠也行(?)的文章」這種同時下好幾個關鍵字來搜尋已經成為大家找資料的方式但大家寫的程式以及市面上的網站卻鮮少支援這種搜尋方式有人對這有研究嗎？好想實作看看XD 或是有現成的library可以用嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.24.88.206 ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53) ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53)

→ pig22022:Text mining 11/27 22:58

→ peanut97:google到http://goo.gl/Cd10A1，其他搜尋結果也多是論文 11/27 23:02

→ peanut97:好複雜...有前輩能講簡單一點嗎? 11/27 23:03

→ azureblaze:google的搜尋語法"AAA CCC"本來就是"AAA" AND "CCC" 11/27 23:04

→ azureblaze:關鍵字布林運算早在google出現前就有了 11/27 23:04

推 grtfor:現成的就用lucene或搭載應用層的Solr吧~ 11/27 23:08

推 kurakidream:page rank 分析網頁間的Linking 可以去wiki看看 11/27 23:27

→ kurakidream:字詞間的關係相關研究很多可以去多看看別人的paper 11/27 23:29

→ yangyr:http://en.wikipedia.org/wiki/PageRank Google出名的東西 11/27 23:33

推 plover:後來PageRank又被玩到爛了，然後又有新東西，很好玩 11/27 23:35

推 sleepwu:這研究下去會走火入魔 11/27 23:37

推 kurakidream:我碩班做搜尋的xd 文件那種靜態搜尋的數學模型跟網頁 11/27 23:45

→ kurakidream:那種資料會一值變動的動態搜尋差滿多的 11/27 23:46

→ kurakidream:如果你會寫java 上面grtfor大大推的lucene可以去玩玩 11/27 23:50

→ peanut97:所以..他本來就是個很複雜的東西很難用簡單的話來解釋囉 11/28 00:05

推 UbaldJimenez:這東西如果想理解到實作概念推導，本身就很難簡單講 11/28 00:26

→ ck574b027:做搜尋很複雜，但跟你說的現象無關，就只是拆字跟不拆 11/28 00:26

→ ck574b027:都一起下去搜啊。 11/28 00:27

推 Chita5566:利用text mining asociation rule 先做一次語料庫比對 11/28 00:28

→ Chita5566:把score高於門檻值的網頁在去做ranking 11/28 00:29

→ Chita5566:以上都是猜測記得以前聽過google不只用page做排序 11/28 00:30

→ uranusjr:能讓你簡單就聽懂 Google 還混個屁, 你以為其他家不想做? 11/28 00:33

→ Chita5566:https://www.google.com/intl/zh-TW/insidesearch/howse 11/28 00:41

→ Chita5566:這篇應該會給你不少幫助 11/28 00:42

→ ck574b027:熊熊忘記拆字要考慮 TF-IDF，效率有差。 11/28 00:43

推 recorriendo:就是簡單的indexing 這是information retrieval第一堂 11/28 05:01

→ recorriendo:就會教的東西現成package裡Lucene用得滿廣泛的 11/28 05:02

→ recorriendo:至於上面提到的pagerank Tf-idf等都是ranking的方法 11/28 05:03

→ recorriendo:屬於比較後期的處理 (先知道那些文件是相關的才能排名 11/28 05:06

→ recorriendo:事實上windows或mac OS都有暗地做indexing 所以你找檔 11/28 05:08

→ recorriendo:案也是打幾個關鍵字就行~ 11/28 05:08

→ recorriendo:原PO只問基本關鍵字搜尋推文講的都太深入啦XD 11/28 05:12

→ peanut97:沒關係都可以當作參考啦 11/28 10:08

推 dylan29341:去買本 information retrieval 的原文書讀一讀就懂了 11/28 12:25

→ peanut97:正在試用Lucene中在他demo版本中已經會自動處理有2個關 11/29 01:33

→ peanut97:關鍵字的狀況...如果能把他套在自己程式裡應該很棒 11/29 01:34

推 dailike:簡單說就是建立每個字的index，在取AAA跟CCC交集的文章 12/04 18:46