作者m87dd05 (八八里阿巴)
看板Python
標題[問題] 爬蟲剔除不必要標籤
時間Tue Mar 12 10:57:35 2019
小弟是爬蟲新手
想請問各位前輩
我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下圖之資訊
https://imgur.com/a/8FTeXMM
但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time
試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會
得到
----------
Time
(S)
----------
想請問:
(1) 以目前狀態來看我是不是只能自己去處理 Time 換行 (s) 的這串資料,可能自己剔
除換行符號之後的資訊?
(2) 有沒有更好的解法可以直接拿到 Time呢?
find_all("th", attrs={"data-XXXXXX: ""})
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.249.60.124
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552359457.A.082.html
推 rexyeah: find_all("th" attrs=lambda x: x and "whatever" in x) 03/12 11:33
→ rexyeah: 沒測過... 不過常用類似的方法去篩選抓回來的東西 03/12 11:33
推 nini200: 直接給網址 03/12 13:57
推 art1: 使用.contents[0]看看 03/12 22:26