[問題] 用beautifulsoup抓網頁中的表格

作者cawaiilulu (across)

看板Python

標題[問題] 用beautifulsoup抓網頁中的表格

時間Fri Aug 4 03:50:07 2017

要抓一個wiki page中的表格以計算但是我只會作到抓下整個html碼接下來就不知道怎麼作 https://en.wikipedia.org/wiki/World_Series_television_ratings 像以上這樣請問我要怎麼樣才能夠只抓下 1984~年的收視率表格? Television ratings by year, 1984 – present python3 謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 69.117.241.97 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1501789810.A.4EF.html

推 ntumath: bf = Beautiful(url,'html.parser') 08/04 08:30

→ ntumath: target = bf.findAll('table')[1] 08/04 08:30

→ ntumath: 想做計算可以用pandas，先熟悉用bf抓contents吧 08/04 08:33

我有作到這一步但是那個頁面有很多表格我不太確定要怎麼限定在我要的那一個表格然後抓下來進行計算是否應該開網頁html碼然後用 ("div", {class}:..........) 後半部不知應該怎麼看

→ coeric: 樓上的湯被偷了........ 08/04 11:14

→ coeric: pandas很強，但也很雞肋遇到一些很亂的網頁時 08/04 12:07

→ coeric: 所要的資訊盡亂塞在表格很奇怪的地方而且還是分開的 08/04 12:07

→ coeric: 我就放棄pandas，改回歸原始的美麗的湯 08/04 12:08

→ coeric: 不過，用美麗的湯，也是得突破千萬難關才有辦法抵達 08/04 12:09

→ coeric: 就是同你說的 ("div", {class}:... 08/04 12:09

→ coeric: 昨天在撈統聯客運的訊息時，差點沒吐血........ 08/04 12:10

所以該怎麼作呢? 用beautifulsoup的documment要怎麼找關鍵字來查出我想要的產出的作法? 謝謝! ※ 編輯: cawaiilulu (69.117.241.97), 08/04/2017 12:33:28

→ coeric: 就你說的一樣是看html找標籤 08/04 13:07

→ coeric: 按F12 進到開發人員模式去看 08/04 13:11

→ ntumath: 要是只抓這種一頁的資訊，怕麻煩就用xpath或css一鍵複製 08/04 21:24

→ ntumath: 會用到特別標注id,class這種的通常是需要抓同個架構下 08/04 21:25

→ ntumath: 差不多的內容，但是怕重新request的時候改變xpath的那種 08/04 21:27