看板 Python 關於我們 聯絡資訊
要抓一個wiki page中的表格以計算 但是我只會作到抓下整個html碼 接下來就不知道怎麼作 https://en.wikipedia.org/wiki/World_Series_television_ratings 像以上這樣 請問我要怎麼樣才能夠只抓下 1984~年的收視率表格? Television ratings by year, 1984 – present python3 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 69.117.241.97 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1501789810.A.4EF.html
ntumath: bf = Beautiful(url,'html.parser') 08/04 08:30
ntumath: target = bf.findAll('table')[1] 08/04 08:30
ntumath: 想做計算可以用pandas,先熟悉用bf抓contents吧 08/04 08:33
我有作到這一步 但是那個頁面有很多表格 我不太確定要怎麼限定在我要的那一個表格 然後抓下來進行計算 是否應該開網頁html碼 然後用 ("div", {class}:..........) 後半部不知應該怎麼看
coeric: 樓上的湯被偷了........ 08/04 11:14
coeric: pandas很強,但也很雞肋 遇到一些很亂的網頁時 08/04 12:07
coeric: 所要的資訊盡亂塞在表格很奇怪的地方 而且還是分開的 08/04 12:07
coeric: 我就放棄pandas,改回歸原始的美麗的湯 08/04 12:08
coeric: 不過,用美麗的湯,也是得突破千萬難關 才有辦法抵達 08/04 12:09
coeric: 就是同你說的 ("div", {class}:... 08/04 12:09
coeric: 昨天在撈統聯客運的訊息時,差點沒吐血........ 08/04 12:10
所以該怎麼作呢? 用beautifulsoup的documment要怎麼找關鍵字來查出 我想要的產出的作法? 謝謝! ※ 編輯: cawaiilulu (69.117.241.97), 08/04/2017 12:33:28
coeric: 就你說的 一樣是看html找標籤 08/04 13:07
coeric: 按F12 進到開發人員模式去看 08/04 13:11
ntumath: 要是只抓這種一頁的資訊,怕麻煩就用xpath或css一鍵複製 08/04 21:24
ntumath: 會用到特別標注id,class這種的 通常是需要抓同個架構下 08/04 21:25
ntumath: 差不多的內容,但是怕重新request的時候改變xpath的那種 08/04 21:27