看板 Soft_Job 關於我們 聯絡資訊
一般常見的搜尋方式,都是輸入一個字串AAA,便會找出文章: ..........AAA...BBB..CCC...AAA..... 中每個AAA所在的位置(index),再秀出來。 市面上好像有九成的網站、程式 都是這種的 但是google搜尋 卻可以輸入"AAA CCC",進而找出這篇文章: ..........AAA...BBB..CCC...AAA..... "AAA CCC"這個字串,google大神不僅可以找到完全符合"AAA CCC"字串的文章 也能找到「有AAA,也有CCC,但兩者不見得靠得很近,距離很遠也行(?)的文章」 這種同時下好幾個關鍵字來搜尋 已經成為大家找資料的方式 但大家寫的程式以及市面上的網站 卻鮮少支援這種搜尋方式 有人對這有研究嗎?好想實作看看XD 或是有現成的library可以用嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.24.88.206 ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53) ※ 編輯: peanut97 來自: 114.24.88.206 (11/27 22:53)
pig22022:Text mining 11/27 22:58
peanut97:google到http://goo.gl/Cd10A1,其他搜尋結果也多是論文 11/27 23:02
peanut97:好複雜...有前輩能講簡單一點嗎? 11/27 23:03
azureblaze:google的搜尋語法"AAA CCC"本來就是"AAA" AND "CCC" 11/27 23:04
azureblaze:關鍵字布林運算早在google出現前就有了 11/27 23:04
grtfor:現成的就用lucene或搭載應用層的Solr吧~ 11/27 23:08
kurakidream:page rank 分析網頁間的Linking 可以去wiki看看 11/27 23:27
kurakidream:字詞間的關係 相關研究很多 可以去多看看別人的paper 11/27 23:29
yangyr:http://en.wikipedia.org/wiki/PageRank Google出名的東西 11/27 23:33
plover:後來PageRank又被玩到爛了,然後又有新東西,很好玩 11/27 23:35
sleepwu:這研究下去會走火入魔 11/27 23:37
kurakidream:我碩班做搜尋的xd 文件那種靜態搜尋的數學模型跟網頁 11/27 23:45
kurakidream:那種資料會一值變動的動態搜尋差滿多的 11/27 23:46
kurakidream:如果你會寫java 上面grtfor大大推的lucene可以去玩玩 11/27 23:50
peanut97:所以..他本來就是個很複雜的東西 很難用簡單的話來解釋囉 11/28 00:05
UbaldJimenez:這東西如果想理解到實作概念推導,本身就很難簡單講 11/28 00:26
ck574b027:做搜尋很複雜,但跟你說的現象無關,就只是拆字跟不拆 11/28 00:26
ck574b027:都一起下去搜啊。 11/28 00:27
Chita5566:利用text mining asociation rule 先做一次語料庫比對 11/28 00:28
Chita5566:把score高於門檻值的網頁在去做ranking 11/28 00:29
Chita5566:以上都是猜測 記得以前聽過google不只用page做排序 11/28 00:30
uranusjr:能讓你簡單就聽懂 Google 還混個屁, 你以為其他家不想做? 11/28 00:33
Chita5566:這篇應該會給你不少幫助 11/28 00:42
ck574b027:熊熊忘記拆字要考慮 TF-IDF,效率有差。 11/28 00:43
recorriendo:就是簡單的indexing 這是information retrieval第一堂 11/28 05:01
recorriendo:就會教的東西 現成package裡Lucene用得滿廣泛的 11/28 05:02
recorriendo:至於上面提到的pagerank Tf-idf等都是ranking的方法 11/28 05:03
recorriendo:屬於比較後期的處理 (先知道那些文件是相關的才能排名 11/28 05:06
recorriendo:事實上windows或mac OS都有暗地做indexing 所以你找檔 11/28 05:08
recorriendo:案也是打幾個關鍵字就行~ 11/28 05:08
recorriendo:原PO只問基本關鍵字搜尋 推文講的都太深入啦XD 11/28 05:12
peanut97:沒關係 都可以當作參考啦 11/28 10:08
dylan29341:去買本 information retrieval 的原文書讀一讀就懂了 11/28 12:25
peanut97:正在試用Lucene中 在他demo版本中 已經會自動處理有2個關 11/29 01:33
peanut97:關鍵字的狀況...如果能把他套在自己程式裡應該很棒 11/29 01:34
dailike:簡單說就是建立每個字的index,在取AAA跟CCC交集的文章 12/04 18:46