→ suzuke:你該把你的code貼出來讓大家幫你看問題在哪, 而不是問 07/17 02:27
→ suzuke:你該怎麼做, 等著讓別人告訴你答案 07/17 02:28
推 carlcarl:你用urllib你是截取到什麼東西? 07/17 02:52
不好意思
我補上我的code (on python 3.3.2)
import urllib.request
web=urllib.request.urlopen('http://www.cwb.gov.tw/V7/prevent/warning/w23.htm?')
webcontent=web.read()
print(webcontent)
這樣得到一堆big5編碼的內容
https://www.space.ntu.edu.tw/navigate/s/233DBD84725147E999B6835585877100QQY
我剛剛發現裡面有發報的時間點,最新的是在2013/07/17 04:00發的
但是我不知道該如何decode其他文字><
我有用.decode('big5')
但是一直出現類似這樣的error
UnicodeDecodeError: 'big5' codec can't decode byte 0xe7 in position 0:
illegal multibyte sequence
還有請大家指導指導 謝謝!!
※ 編輯: CCpiano 來自: 140.109.113.31 (07/17 09:19)
→ swpoker:errors='ignore' 看看一下 Codec Base Classes 07/17 10:16
→ swpoker:因為網頁通常會有奇怪的字元,所以轉碼要設定忽略錯誤 07/17 10:16
推 trashprince:pyquery不錯用 07/18 00:52