看板 Python 關於我們 聯絡資訊
試過chardet模組,似乎不行,google了一下chardet 覺得它是可偵測big5,gbk等編碼,但跟我的問題不太一樣.. 可能是我表達的不清楚,再重新解釋一下,看有沒有人可以幫忙.. ch是unicode字串,它有可能是經由big5,gb2312的字串解碼而來: 也就是: ch = ch0.decode('big5') 或 ch = ch0.decode('gb2312') 我的需求是: 不論ch是由big5,gb2312而來,程式要能自動判斷, 並自動將ch由unicode轉成big5 ※ 引述《tumc (HIHIHI)》之銘言: : 請問: 如果 ch變數 是一個有可能是簡體字或繁體字的 unicode字串 : 那有辦法在程式中判斷ch是繁體字或簡體字嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.136.220.229
AndCycle:你可以一直試不同的encode試到不會跳出 error ... 01/21 01:54
tumc:這就不是自動判斷了吧 01/21 10:43
AndCycle:如果你只有gb跟big5要判斷那只要試兩次就好啦, 01/21 12:14
tumc:但是跳出error,那程式不是就停了嗎.. 01/21 12:19
AndCycle:自己try/except攔起來處理呀~ 01/21 12:21
ykjiang:也有些字是簡繁共用的 01/21 12:22
tumc:再問一下,那如果把 簡體->unicode->繁體 01/21 14:25
gasolin:chardet只能判斷超過一定長度的字串,太短不行 01/21 22:12