[請益]請問如何將HTML裡面的Unicode Decimal轉回UTF-8字元

作者WandererM (WM)

看板Perl

標題[請益]請問如何將HTML裡面的Unicode Decimal轉回UTF-8字元

時間Sat Feb 9 01:35:29 2008

請問各位板上的先進高手，我想要抓取一個Big5編碼HTML裡面的資料，可是裡面有很多Unicode字元使用了Decimal的方法來表示，像是這樣： 葉 我目前是先用系統裡面的iconv把它轉成UTf-8的格式， system("iconv -f big5 -t UTF-8 file1 > file2"); 這時候裡面那些葉的Unicode還沒有變動，然後用HTML::TreeBuilder跟HTML::Element去處理，也有use Encode; use utf8; 把抓到的資料print出來以後，很神奇的發現那些Unicode Decimal有些被轉回正確的日文假名了，但是有些卻變成了亂碼，想請問各位，有沒有什麼方法能把檔案內的所有葉這類的Unicode，轉回UTF-8格式的字元？我想這樣再丟給HTML::TreeBuilder應該就不會出問題了Orz -- ▄▄A WM Should Not Know Anger, ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄ Nor Hatred,▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄▄▄Nor Love. ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄ My home: ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄ http://kidwm.net/ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.244.94 ※ 編輯: WandererM 來自: 140.113.244.94 (02/09 01:37)

推 in2:HTML::Entities 02/09 16:24

→ WandererM:感謝in2姐姐的回答XD 02/09 22:39