看板 Python 關於我們 聯絡資訊
大家好 這幾天再爬一個jsp的網頁 但爬到的內容中文部分都是亂碼 不管我怎樣編譯都沒辦法辨識(轉utf-8) 我在想是不是jsp的編碼比較特別? 大概長這樣 ªZc ÷ºXÄ¥c ± 我爬了一堆文,想破頭也對python的編碼快搞混了 想請大家幫忙想想,不知道問題是出在哪一段上 如果是用瀏覽器看網頁是正常中文的 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.25.210.41 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1457960608.A.4CB.html
hsnusonic: 要看那個網頁用什麼encoding 03/14 21:17
aaa7513231: Accept-Encoding:gzip, deflate 應該是這個吧? 03/14 21:31
aaa7513231: 我有嘗試編譯gzip 但一樣亂碼.... 03/14 21:31
kenduest: 可能交代一下抓取的方式,要不然很難猜你的問題 03/15 13:06
kenduest: 另外要確認一下你所在的環境是在 windows or linux 上 03/15 13:07
kenduest: windows cmd 上一般預設編碼都是 big5, 而 linux 上 03/15 13:07
kenduest: 目前環境一般都 utf8, 終端機的編碼也直接是 utf8 03/15 13:07
kenduest: 若你抓取要顯示的文字編碼與工作顯示環境編碼不同會亂碼 03/15 13:08
kenduest: 至於1,2 說那個是壓縮,我想應該是要問 charset 編碼 03/15 13:09
aaa7513231: 感謝K大!!! 我是使用windows環境的 所以是big5 03/17 00:42
aaa7513231: 之前一直被utf-8給誤導,以為都是使用他去編碼的 03/17 00:43