[問題] 爬蟲剔除不必要標籤

作者m87dd05 (八八里阿巴)

看板Python

標題[問題] 爬蟲剔除不必要標籤

時間Tue Mar 12 10:57:35 2019

小弟是爬蟲新手想請問各位前輩我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈) 使用find_all("th", attrs={"data-XXXXXX: ""}) 最後可以爬到如下圖之資訊 https://imgur.com/a/8FTeXMM 但因<th>包住<span>，但<span>的內容我不需要，我只需要 Time 試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會得到 ---------- Time (S) ---------- 想請問: (1) 以目前狀態來看我是不是只能自己去處理 Time 換行 (s) 的這串資料，可能自己剔除換行符號之後的資訊? (2) 有沒有更好的解法可以直接拿到 Time呢? find_all("th", attrs={"data-XXXXXX: ""}) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.249.60.124 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552359457.A.082.html

推 rexyeah: find_all("th" attrs=lambda x: x and "whatever" in x) 03/12 11:33

→ rexyeah: 沒測過... 不過常用類似的方法去篩選抓回來的東西 03/12 11:33

推 nini200: 直接給網址 03/12 13:57

推 art1: 使用.contents[0]看看 03/12 22:26