作者synd (你今天夯了沒?)
看板Python
標題Re: [問題] 請問一下unicode的問題
時間Fri Oct 2 23:10:54 2009
借用這個很久以前的標題...
最近我在寫一個程式
其中會需要把ptt上的文章轉成unicode
一般的中文沒什麼問題
但若遇到中日文混用的文章,以big5去解碼會出現錯誤
像這樣:
UnicodeDecodeError: 'big5' codec can't decode bytes in position 41-42:
illegal multibyte sequence
我先暫時用忽略錯誤的方式進行
unicodeLines.append(unicode(textline,'Big5','ignore').encode('utf8'))
只要別遇到中日文混用的都沒啥問題
只是日文字的部份會亂掉
這樣問題有什麼比較好的解法嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.115.118.109
→ yungyuc:Big5hkscs 10/02 23:25
推 buganini:ptt上的很多是UAO的 10/03 01:15
→ synd:先用big5hkscs解決,雖然還是會掉一些字,不過好多了 10/03 11:04