作者Czero (悠閒)
看板Python
標題[問題] 請問擷取原始碼中文問題
時間Fri Jul 3 23:25:54 2015
擷取的頁面:
http://isin.twse.com.tw/isin/C_public.jsp?strMode=2
我是用python3 , sublime執行
但印出的中文會顯示如\xa1@\xa5x\xaad這樣字眼
使用python console >>> b'\xa1@\xa5x\xaad'.decode('utf-8')解不出來
請教各位這該如何解,編碼實在很惱人...
---
# -*- coding:utf8 -*-
import urllib.request as urllib2
import sys
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
req = urllib2.Request('
http://isin.twse.com.tw/isin/C_public.jsp?strMode=2' , headers=headers)
content = urllib2.urlopen(req).read()
print(content)
---
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.192.105
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1435937158.A.4A3.html
→ yan12125: 這個網頁是Big5 07/03 23:48
推 Thisisnotptt: 我很懶,我都用django的smart_string來處理這種事, 07/04 00:10
→ Thisisnotptt: 編碼什麼的幾乎都能搞定,超方便的啦 07/04 00:10
→ Czero: @@原來是big5..哈!因為初學所以先玩一下再去用Django 07/04 00:22
→ uranusjr: 請愛用 chardet 07/04 00:31
→ Czero: 感謝各位! 07/04 00:35
→ Czero: 另外請問...在console打>>>b'\xa5x\xaad'.decode('big5') 07/04 00:36
→ Czero: 但在程式打print(b'\xa5x\xaad'.decode('big5'))似乎不行? 07/04 00:37
→ uranusjr: Windows 請再加一段 .encode('cp950') 07/04 01:38
→ Czero: 我是希望sublime可以也印出中文'台泥'的字眼 07/04 01:49
→ uranusjr: 不要用 Sublime Text console 謝謝 07/04 16:27