看板 Python 關於我們 聯絡資訊
我寫了一小段程式碼如下, 分別想抓兩個財金網站的資料: from bs4 import BeautifulSoup from urllib.request import urlopen html11=urlopen('https://www.bloomberg.com/quote/INDU:IND') soup=BeautifulSoup(html11,'html.parser') print(soup.find_all('div')) html22=urlopen('https://www.cnbc.com/quotes/?symbol=AAPL&qsearchterm=aapl') soup=BeautifulSoup(html22,'html.parser') print(soup.find_all('div')) htm111 是bloomberg的報價網站,很怪的事我在chrome裡面看原始碼明明就有很多'div' 的標籤, 但是實作跑完只有如下: [<div id="px-captcha"></div>, <div id="block_uuid">Block reference ID: </div>] html22是cnbc的報價網站, 就沒有這個問題, 稍微過濾一下就找到我要的資料了. 想要向各位前輩請教解決這個小問題.... 非常感謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.111.116 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1556875821.A.C08.html
tlaceruse: Bloomberg 很早開始就擋爬蟲了。Header request 要多 05/03 18:03
tlaceruse: 試幾個參數 05/03 18:03