→ jiyu520: 亂碼有可能是你檢視時的問題;可以附上連結或圖嗎?01/16 15:42
已確認過HEX,所以排除檢視的問題。我把每一頁爬梳的結果都存在同一個文字檔,只有
該頁的輸出是亂碼。單獨掃該頁也是亂碼。
推 sherees: encoding='utf-8-sig'01/16 16:11
謝謝,但加了sig還是亂碼
※ 編輯: shala (173.213.89.40), 01/16/2019 17:16:28
→ s860134: 直接給有問題的頁面和你爬的 code,窮舉亂槍打鳥很難01/16 21:43
確實是這樣,只是不太方便給出...
本來是想看看有沒有人有類似經驗,可以指點一下方向。
※ 編輯: shala (173.213.89.40), 01/16/2019 22:16:03
→ s860134: 站內信 或是給個頁面原始碼... 01/16 22:59
→ s860134: 你看一下網頁原始碼 <meta charset="xxxx" /> 01/17 22:43
→ s860134: big5 要用 big5 解,utf8要用 utf8 解 01/17 22:43
→ s860134: 把資料餵給 bs 去爬的時候是 bytes,先 decode成 unicode 01/17 22:53
→ s860134: 在餵進去 01/17 22:53