看板 Python 關於我們 聯絡資訊
小弟是爬蟲新手 想請問各位前輩 我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈) 使用find_all("th", attrs={"data-XXXXXX: ""}) 最後可以爬到如下圖之資訊 https://imgur.com/a/8FTeXMM 但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time 試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會 得到 ---------- Time (S) ---------- 想請問: (1) 以目前狀態來看我是不是只能自己去處理 Time 換行 (s) 的這串資料,可能自己剔 除換行符號之後的資訊? (2) 有沒有更好的解法可以直接拿到 Time呢? find_all("th", attrs={"data-XXXXXX: ""}) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.249.60.124 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552359457.A.082.html
rexyeah: find_all("th" attrs=lambda x: x and "whatever" in x) 03/12 11:33
rexyeah: 沒測過... 不過常用類似的方法去篩選抓回來的東西 03/12 11:33
nini200: 直接給網址 03/12 13:57
art1: 使用.contents[0]看看 03/12 22:26