看板 Perl 關於我們 聯絡資訊
請問各位板上的先進高手, 我想要抓取一個Big5編碼HTML裡面的資料, 可是裡面有很多Unicode字元使用了Decimal的方法來表示, 像是這樣: 葉 我目前是先用系統裡面的iconv把它轉成UTf-8的格式, system("iconv -f big5 -t UTF-8 file1 > file2"); 這時候裡面那些葉的Unicode還沒有變動, 然後用HTML::TreeBuilder跟HTML::Element去處理, 也有use Encode; use utf8; 把抓到的資料print出來以後, 很神奇的發現那些Unicode Decimal有些被轉回正確的日文假名了, 但是有些卻變成了亂碼, 想請問各位,有沒有什麼方法能把檔案內的所有葉這類的Unicode, 轉回UTF-8格式的字元? 我想這樣再丟給HTML::TreeBuilder應該就不會出問題了Orz -- ▄▄A WM Should Not Know Anger, ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄ Nor Hatred,▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄▄▄Nor Love. ▄▄▄▄▄▄▄▄▄▄▄▄ My home: ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ http://kidwm.net/ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.244.94 ※ 編輯: WandererM 來自: 140.113.244.94 (02/09 01:37)
in2:HTML::Entities 02/09 16:24
WandererM:感謝in2姐姐的回答XD 02/09 22:39