看板 Python 關於我們 聯絡資訊
大家好 想請教大家 將10萬字中文文章內的名詞分出來 可能有哪幾種解決方式呢? 謝謝 1. 分詞工具 現在有結巴分詞 pullword等 但效率都奇慢 2.自己收集字典檔硬幹 這事我做過 硬幹了國立編譯館跟一堆字典檔 但實在太花時間 還是一堆漏網之魚 最後仍要自己挑出來 3. 找線上api 像如果有google翻譯 那就把一個區塊分出來的詞抓出來 無奈google翻譯處理的量有限 想請教大家還有沒有更快 有效的解決方式呢^^ 例如利用現有的翻譯工具取詞 詞都取出來後再用字典檔比對 似乎會比一開始就遍歷龐大的字典檔更好 不知道還有沒有更快方式呢? 謝謝~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.246.193.253 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1486346176.A.038.html ※ 編輯: phpjson (27.246.193.253), 02/06/2017 09:58:14 ※ 編輯: phpjson (27.246.193.253), 02/06/2017 09:59:47
uranusjr: 這東西沒有捷徑, 請自己下苦工 02/06 15:08
micangela: google看看chinese pos tagging,不知有沒有你要的東西 02/06 18:10
s860134: 中研院那個pos應該能用吧 02/08 00:19
qiubite31: 用CKIP 02/09 22:52
s860134: http://ckipsvr.iis.sinica.edu.tw/ 用 requests 打 02/10 00:11