看板 Ruby 關於我們 聯絡資訊
http://tonytonyjan.github.com/blog/tjngram/ 有想要寫 IR System Library 的衝動, 心血來潮在 RubyGems 搜尋了一下看有沒有可用的 N-Grams library, 確實也給我找到幾個,但可惜的是他們只有針對英文做斷詞,沒有針對中日韓。 可想像的到英文的斷詞和中文的斷詞是截然不同的, 但現在許多文章卻又中英日混雜,面對這種文章,那些 library 起不了什麼作用, 所以只好自己寫一個了。 雖然不知道有沒有人用 Rails 寫 IR System,但除此用途之外, 使用 NGram 來爬社群網站的詞彙其實也很好玩XD -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.227.144.168
ggegge:http://rmmseg.rubyforge.org/ 中文斷詞 07/14 16:38
tonytonyjan:感謝!改天來整合進 Ferret 07/14 21:08
ggegge:其實那網頁裡面就有 Ferret 的使用範例 07/16 22:39
tonytonyjan:我知道,但我有重造輪子的壞習慣 07/16 22:49
markmcm:請問這有可能跟sunspot solr 搭配使用嗎? 07/19 12:33
tonytonyjan:沒研究過 Sunspot,但我想也許有人寫過了? 07/23 13:31