看板 Perl 關於我們 聯絡資訊
有點白癡的問題 就是我抓了中文wikipedia的網頁 (編碼 UTF8 但是print 在螢幕上就一直是亂碼 試了很多種編碼! 目前效果最好 也應該是正確的是下面的轉碼方式 encode("gb2312", decode("utf8", XXX)) ---- A encode("big5", decode("utf8", XXX)) ---- B 還是有些問題 主要是網頁是繁中簡中參半(html code才看得出來 EX: 假設網頁中有 Wikipedia:免责声明 這兩個字串 免責聲明 分別使用A和B兩種方式 結果如下 Wikipedia:轎孮汒隴 免責聲明 都使用B方式 Wikipedia:免??明 免責聲明 只用A就不用說了...根本是失敗!! 我已經知道抓到的資料哪些是簡中哪些是繁中 所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.245.199
buganini:你用A的時候網頁編碼有沒有選對? 11/04 03:10
buganini:底下正確的中文是不是html entities? 11/04 03:10
buganini:麻煩打開原始碼看 11/04 03:10
buganini:不管是簡中還是繁中 正確的轉換都不會有亂碼 11/04 03:11
buganini:頂多就是問號或掉字或換成相似字 11/04 03:12
abcg5:網頁編碼都是charset=utf8 使以B的方法對了 只是轉不好? 11/04 09:29