作者tumc (HIHIHI)
看板Python
標題Re: [問題] 自動判斷繁,簡體?
時間Thu Jan 21 01:37:37 2010
試過chardet模組,似乎不行,google了一下chardet
覺得它是可偵測big5,gbk等編碼,但跟我的問題不太一樣..
可能是我表達的不清楚,再重新解釋一下,看有沒有人可以幫忙..
ch是unicode字串,它有可能是經由big5,gb2312的字串解碼而來:
也就是: ch = ch0.decode('big5') 或 ch = ch0.decode('gb2312')
我的需求是: 不論ch是由big5,gb2312而來,程式要能自動判斷,
並自動將ch由unicode轉成big5
※ 引述《tumc (HIHIHI)》之銘言:
: 請問: 如果 ch變數 是一個有可能是簡體字或繁體字的 unicode字串
: 那有辦法在程式中判斷ch是繁體字或簡體字嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.136.220.229
→ AndCycle:你可以一直試不同的encode試到不會跳出 error ... 01/21 01:54
→ tumc:這就不是自動判斷了吧 01/21 10:43
→ AndCycle:如果你只有gb跟big5要判斷那只要試兩次就好啦, 01/21 12:14
→ tumc:但是跳出error,那程式不是就停了嗎.. 01/21 12:19
→ AndCycle:自己try/except攔起來處理呀~ 01/21 12:21
→ ykjiang:也有些字是簡繁共用的 01/21 12:22
→ tumc:再問一下,那如果把 簡體->unicode->繁體 01/21 14:25
→ gasolin:chardet只能判斷超過一定長度的字串,太短不行 01/21 22:12