看板 Python 關於我們 聯絡資訊
各位版大好,剛接觸python爬蟲沒多久,想要嘗試抓取網站表格, 隨便找了個股票網站,http://stock.nlog.cc/b/1101 原本是使用bs4來爬,但是後來發現有pandas可以抓取表格, 因此想要嘗試使用pandas, 程式碼如下: import pandas url='http://stock.nlog.cc/b/1101' pd=pandas.read_html(url) print(pd) 但是卻出現了 ConnectionResetError: [WinError 10054] 遠端主機已強制關閉一個現存的連線。 這樣的文字,但是我嘗試抓別的網站,卻都沒有問題, 想問一下這是甚麼狀況?是被擋下來了嗎?該怎麼解決? 先謝謝各位了~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.226.218.20 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519281042.A.9C5.html
ckc1ark: 他會檢查是否有傳User-Agent的樣子 02/22 16:21
OnePiecePR: from fake_useragent import UserAgent 02/22 19:39
pig98520: 我加上了header仍然會出現同樣的問題耶~ 02/22 23:33
WunoW: 我有讀到,但產生另一個問題是回傳的結果非常非常難看 02/23 01:38
WunoW: 這可能反而是需要花更多時間的地方 02/23 01:39
WunoW: 建議不好用的方法就不要用 02/23 01:39
Kazimir: 其實我是建議你先用req拿回來再給pandas讀啦 02/23 09:49
Kazimir: 這樣速度也會提升不少 02/23 09:50
pig98520: 好的 謝謝~ 02/23 19:44
a830307119: https://tinyurl.com/y7h8n9up 03/03 07:11
ar54971: https://goo.gl/2WCUGr 03/06 03:39
galeondx: https://goo.gl/cybm9m 03/06 04:17
galeondx: https://goo.gl/MKaCK6 03/06 04:30
galeondx: https://tinyurl.com/yadsk3lo 03/06 04:40