看板 Python 關於我們 聯絡資訊
目前使用查表法,但因為中文會有破音字,光查字表好像不夠 舉例來說,我希望像這樣 >>> parse('中文') >>> 'ㄓㄨㄥㄨㄣˊ' 但實際上是這樣 >>> parse('中文') >>> 'ㄓㄨㄥˋㄨㄣˊ' 請問有沒有辦法解決?或是有沒有詞表可用呢? 目前是使用 OXIM 的表,只有注音的字表和好像是倉頡的字表... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.46.142.159
tjjh89017:不然就是建常用表,然後再去修正破音字? 09/29 15:11
os653:自己建表工作量過大,不太可能 09/29 15:33
a822305877:丟GOOGLE翻譯 然後爬他的注音XD 09/29 16:15
changyuheng:可以查線上字典 09/29 19:02
os653:有沒有除了查線上的方式呢?實在不太可靠 Q_Q 09/29 19:07
kewang:中研院語料庫 09/30 00:45
os653:中研院語料庫好像沒有拼音耶... 09/30 00:55
changyuheng:把線上字典爬下來?教育部國語辭典應該可靠吧 09/30 01:30
os653:最後拿OXIM+漢語口語語料庫詞頻表+現代漢語常用詞表做大雜燴 10/01 00:39
os653:結果有好點了,純粹靠查表還是有極限在 10/01 00:41
mjhsieh:我昨天做的跟你一樣 10/01 13:10
mjhsieh:http://bit.ly/PF9mKZ 10/01 13:11
mjhsieh:但是我只找最常出現的字音,完全跳過詞 10/01 13:12
mjhsieh:當然如果你要做到完全的,就跟作輸入法一樣費工.... 10/01 13:13
god987412365: 我的狀況是只能打注音,不會變國字啊啊啊 10/01 13:55