作者tonytonyjan (南洋大兜蟲)
看板Ruby
標題[心得] NGram 中立斷詞法實做
時間Sat Jul 14 00:22:49 2012
http://tonytonyjan.github.com/blog/tjngram/
有想要寫 IR System Library 的衝動,
心血來潮在 RubyGems 搜尋了一下看有沒有可用的 N-Grams library,
確實也給我找到幾個,但可惜的是他們只有針對英文做斷詞,沒有針對中日韓。
可想像的到英文的斷詞和中文的斷詞是截然不同的,
但現在許多文章卻又中英日混雜,面對這種文章,那些 library 起不了什麼作用,
所以只好自己寫一個了。
雖然不知道有沒有人用 Rails 寫 IR System,但除此用途之外,
使用 NGram 來爬社群網站的詞彙其實也很好玩XD
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.227.144.168
→ tonytonyjan:感謝!改天來整合進 Ferret 07/14 21:08
推 ggegge:其實那網頁裡面就有 Ferret 的使用範例 07/16 22:39
→ tonytonyjan:我知道,但我有重造輪子的壞習慣 07/16 22:49
推 markmcm:請問這有可能跟sunspot solr 搭配使用嗎? 07/19 12:33
→ tonytonyjan:沒研究過 Sunspot,但我想也許有人寫過了? 07/23 13:31