作者pig98520 (Jimmy)
看板Python
標題[問題] pandas爬蟲被擋下來
時間Thu Feb 22 14:30:38 2018
各位版大好,剛接觸python爬蟲沒多久,想要嘗試抓取網站表格,
隨便找了個股票網站,
http://stock.nlog.cc/b/1101
原本是使用bs4來爬,但是後來發現有pandas可以抓取表格,
因此想要嘗試使用pandas,
程式碼如下:
import pandas
url='
http://stock.nlog.cc/b/1101'
pd=pandas.read_html(url)
print(pd)
但是卻出現了
ConnectionResetError: [WinError 10054] 遠端主機已強制關閉一個現存的連線。
這樣的文字,但是我嘗試抓別的網站,卻都沒有問題,
想問一下這是甚麼狀況?是被擋下來了嗎?該怎麼解決?
先謝謝各位了~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.226.218.20
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1519281042.A.9C5.html
推 ckc1ark: 他會檢查是否有傳User-Agent的樣子 02/22 16:21
推 OnePiecePR: from fake_useragent import UserAgent 02/22 19:39
→ pig98520: 我加上了header仍然會出現同樣的問題耶~ 02/22 23:33
→ WunoW: 我有讀到,但產生另一個問題是回傳的結果非常非常難看 02/23 01:38
→ WunoW: 這可能反而是需要花更多時間的地方 02/23 01:39
→ WunoW: 建議不好用的方法就不要用 02/23 01:39
→ Kazimir: 其實我是建議你先用req拿回來再給pandas讀啦 02/23 09:49
→ Kazimir: 這樣速度也會提升不少 02/23 09:50
→ pig98520: 好的 謝謝~ 02/23 19:44