看板 Python 關於我們 聯絡資訊
借用這個很久以前的標題... 最近我在寫一個程式 其中會需要把ptt上的文章轉成unicode 一般的中文沒什麼問題 但若遇到中日文混用的文章,以big5去解碼會出現錯誤 像這樣: UnicodeDecodeError: 'big5' codec can't decode bytes in position 41-42: illegal multibyte sequence 我先暫時用忽略錯誤的方式進行 unicodeLines.append(unicode(textline,'Big5','ignore').encode('utf8')) 只要別遇到中日文混用的都沒啥問題 只是日文字的部份會亂掉 這樣問題有什麼比較好的解法嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.115.118.109
yungyuc:Big5hkscs 10/02 23:25
buganini:ptt上的很多是UAO的 10/03 01:15
synd:先用big5hkscs解決,雖然還是會掉一些字,不過好多了 10/03 11:04