[問題] 中文網頁的問題

作者abcg5 (nothing)

看板Perl

標題[問題] 中文網頁的問題

時間Tue Nov 3 21:07:02 2009

有點白癡的問題就是我抓了中文wikipedia的網頁 (編碼 UTF8 但是print 在螢幕上就一直是亂碼試了很多種編碼! 目前效果最好也應該是正確的是下面的轉碼方式 encode("gb2312", decode("utf8", XXX)) ---- A encode("big5", decode("utf8", XXX)) ---- B 還是有些問題主要是網頁是繁中簡中參半(html code才看得出來 EX: 假設網頁中有 Wikipedia:免责声明這兩個字串免責聲明分別使用A和B兩種方式結果如下 Wikipedia:轎孮汒隴免責聲明都使用B方式 Wikipedia:免??明免責聲明只用A就不用說了...根本是失敗!! 我已經知道抓到的資料哪些是簡中哪些是繁中所以想請教如何能避免這種奇怪的錯誤?? 謝謝!! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.116.245.199

推 buganini:你用A的時候網頁編碼有沒有選對? 11/04 03:10

→ buganini:底下正確的中文是不是html entities? 11/04 03:10

→ buganini:麻煩打開原始碼看 11/04 03:10

→ buganini:不管是簡中還是繁中正確的轉換都不會有亂碼 11/04 03:11

→ buganini:頂多就是問號或掉字或換成相似字 11/04 03:12

→ abcg5:網頁編碼都是charset=utf8 使以B的方法對了只是轉不好? 11/04 09:29