→ pig22022:Text mining 11/27 22:58
→ peanut97:好複雜...有前輩能講簡單一點嗎? 11/27 23:03
→ azureblaze:google的搜尋語法"AAA CCC"本來就是"AAA" AND "CCC" 11/27 23:04
→ azureblaze:關鍵字布林運算早在google出現前就有了 11/27 23:04
推 grtfor:現成的就用lucene或搭載應用層的Solr吧~ 11/27 23:08
推 kurakidream:page rank 分析網頁間的Linking 可以去wiki看看 11/27 23:27
→ kurakidream:字詞間的關係 相關研究很多 可以去多看看別人的paper 11/27 23:29
推 plover:後來PageRank又被玩到爛了,然後又有新東西,很好玩 11/27 23:35
推 sleepwu:這研究下去會走火入魔 11/27 23:37
推 kurakidream:我碩班做搜尋的xd 文件那種靜態搜尋的數學模型跟網頁 11/27 23:45
→ kurakidream:那種資料會一值變動的動態搜尋差滿多的 11/27 23:46
→ kurakidream:如果你會寫java 上面grtfor大大推的lucene可以去玩玩 11/27 23:50
→ peanut97:所以..他本來就是個很複雜的東西 很難用簡單的話來解釋囉 11/28 00:05
推 UbaldJimenez:這東西如果想理解到實作概念推導,本身就很難簡單講 11/28 00:26
→ ck574b027:做搜尋很複雜,但跟你說的現象無關,就只是拆字跟不拆 11/28 00:26
→ ck574b027:都一起下去搜啊。 11/28 00:27
推 Chita5566:利用text mining asociation rule 先做一次語料庫比對 11/28 00:28
→ Chita5566:把score高於門檻值的網頁在去做ranking 11/28 00:29
→ Chita5566:以上都是猜測 記得以前聽過google不只用page做排序 11/28 00:30
→ uranusjr:能讓你簡單就聽懂 Google 還混個屁, 你以為其他家不想做? 11/28 00:33
→ Chita5566:這篇應該會給你不少幫助 11/28 00:42
→ ck574b027:熊熊忘記拆字要考慮 TF-IDF,效率有差。 11/28 00:43
推 recorriendo:就是簡單的indexing 這是information retrieval第一堂 11/28 05:01
→ recorriendo:就會教的東西 現成package裡Lucene用得滿廣泛的 11/28 05:02
→ recorriendo:至於上面提到的pagerank Tf-idf等都是ranking的方法 11/28 05:03
→ recorriendo:屬於比較後期的處理 (先知道那些文件是相關的才能排名 11/28 05:06
→ recorriendo:事實上windows或mac OS都有暗地做indexing 所以你找檔 11/28 05:08
→ recorriendo:案也是打幾個關鍵字就行~ 11/28 05:08
→ recorriendo:原PO只問基本關鍵字搜尋 推文講的都太深入啦XD 11/28 05:12
→ peanut97:沒關係 都可以當作參考啦 11/28 10:08
推 dylan29341:去買本 information retrieval 的原文書讀一讀就懂了 11/28 12:25
→ peanut97:正在試用Lucene中 在他demo版本中 已經會自動處理有2個關 11/29 01:33
→ peanut97:關鍵字的狀況...如果能把他套在自己程式裡應該很棒 11/29 01:34
推 dailike:簡單說就是建立每個字的index,在取AAA跟CCC交集的文章 12/04 18:46