→ unknow3121: 我是原po, 若有違反版規請告知, 謝謝! 07/22 23:40
→ Hsins: 簡單的字串處理跟爬蟲啊,整篇文章去掉標點符號之後根據空 07/22 23:46
→ Hsins: 格做 split 出單字,根據單字去爬意思、詞性跟音標,最後 07/22 23:47
→ Hsins: 排序。 07/22 23:47
→ Hsins: 就算不用程式語言,單純用 Excel 或 Google Spreadsheet 也 07/22 23:48
→ Hsins: 能做到。 07/22 23:48
→ viper9709: 推二樓 07/23 00:28
推 xiangying: google斷詞系統 07/23 07:17
推 BlacksPig: 推二樓 07/23 12:58
噓 remmurds: 連標題都打不好 07/23 13:18
推 alihue: 2f 還需要再多做 Stemming/Lemmatization 07/23 13:37
推 weiber82: jieba 07/23 16:02
推 windclara: 2F已給答案。這真的不難QQ 07/23 18:19
推 jack0204: 想學就自己寫啊,這用chrome套件寫就行了 07/24 08:00
→ sxy67230: 請搜索Spacy或是nltk tool,翻譯可以用wiktionary api 07/26 10:36
推 jennya: 反推二樓,這其實並不簡單。蠻好奇推二樓的人是否真的有做 07/27 01:30
→ jennya: 過。事實上字串處理部分就有一堆細節,包含大小寫、時態轉 07/27 01:30
→ jennya: 換、專有名詞(get/gets/got)(Joe,Joe's)(don't) 等等等非 07/27 01:30
→ jennya: 常多無法備載。 07/27 01:30
→ jennya: 再來你還要去抓字典檔、把斷詞後的單字套用上去。 07/27 01:30
→ jennya: 總之這不是一個五小時內能做完的簡單的東西,如果二三十小 07/27 01:30
→ jennya: 時可能可以吧。 07/27 01:30
→ jennya: 不過如果有好用的library就另當別論。總之反推二樓。 07/27 01:30
→ Hsins: 如果說要考慮到 morphology 當然就麻煩許多了,我說的做法 07/29 15:55
→ Hsins: 只是陽春的處理。我會這樣推文是針對於這篇發文者可能要做 07/29 15:55
→ Hsins: 到的成果。其中比如你提到的大小寫跟時態轉換,甚至我說的 07/29 15:57
→ Hsins: 構詞方法,目前部分的網路字典所提供的 API 是可以處理的。 07/29 15:57
→ Hsins: 以這篇他所要的結果來說,我的推文應該是可以 fit 他需求的 07/29 15:59
→ Hsins: 。至於是要做成一個實際的產品要考慮到的東西,應該不是發 07/29 16:00
→ Hsins: 文者要的吧? 07/29 16:00