作者imce (蜥蜴)
看板perl
標題Re: [問題] 請問抓網頁並去除html tag後 出現亂碼?
時間Thu Oct 25 08:29:30 2007
※ 引述《senhuo (努力吧)》之銘言:
: 請問各位高手們
: 我將某一網頁抓下來
: 並用regular去除 html tag
: 但顯示的結果竟然變成亂碼,但有些網頁沒出現亂碼,有些則有...@@
: (還是去除tag前要加什麼?)
: 請問有人知道解決方案嗎
: 感謝~~
: 程式碼----------------------------------------------------------
Unicode網頁,請編碼成big5才能順利顯示
use WWW::Mechanize;
use Encode;
my $mech = WWW::Mechanize->new();
my $http="
http://blog.roodo.com/judie35/archives/270979.html";
$mech->get($http);
my $html=$mech->content();
$html= encode ("big5-eten",decode('utf-8', $html));
foreach ($html){
s/<[^>]*>//g;}
print $html;
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 60.250.75.176
推 senhuo:哇 真強! 可以了耶...謝謝...orz... 10/25 11:15
推 senhuo:再請教一下...如果原本就可以顯示的網頁 10/25 16:51
→ senhuo:加上encode後 反而會變成亂碼耶... 10/25 16:51
→ senhuo:請問有方法可以解決嗎?謝謝 10/25 16:51