作者abcg5 (nothing)
看板Perl
標題[問題] 中文網頁的問題
時間Tue Nov 3 21:07:02 2009
有點白癡的問題
就是我抓了中文wikipedia的網頁 (編碼 UTF8
但是print 在螢幕上就一直是亂碼
試了很多種編碼!
目前效果最好 也應該是正確的是下面的轉碼方式
encode("gb2312", decode("utf8", XXX)) ---- A
encode("big5", decode("utf8", XXX)) ---- B
還是有些問題
主要是網頁是繁中簡中參半(html code才看得出來
EX:
假設網頁中有
Wikipedia:免责声明 這兩個字串
免責聲明
分別使用A和B兩種方式 結果如下
Wikipedia:轎孮汒隴
免責聲明
都使用B方式
Wikipedia:免??明
免責聲明
只用A就不用說了...根本是失敗!!
我已經知道抓到的資料哪些是簡中哪些是繁中
所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.116.245.199
推 buganini:你用A的時候網頁編碼有沒有選對? 11/04 03:10
→ buganini:底下正確的中文是不是html entities? 11/04 03:10
→ buganini:麻煩打開原始碼看 11/04 03:10
→ buganini:不管是簡中還是繁中 正確的轉換都不會有亂碼 11/04 03:11
→ buganini:頂多就是問號或掉字或換成相似字 11/04 03:12
→ abcg5:網頁編碼都是charset=utf8 使以B的方法對了 只是轉不好? 11/04 09:29