看板 Python 關於我們 聯絡資訊
各位好,做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ,我必須靠Number 來追蹤到ID,目前已經能做到追蹤到Number但ID跟Number不同行,我不懂該如何提取 能給我點提示嗎?謝謝 範例:..... str = ''' <li><a href="123.html" target=_blank class="Observe24"> 十分鐘資料</a></li> ''' 如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html 但現在如果分行了,我只能抓到 唯一識別值:十分鐘資料,我不知道應該怎麼回推 從我在原始碼找到十分鐘的資料後,往上一行獲取到 123.html 這個值 懇請指點 謝謝 -- \ 這個板需要更高竿的酸民 //﹀\\ ╰═╯ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.30.145 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1528022314.A.E65.html
ringlwe: 是不是這個呀06/03 18:56
ringlwe: soup-getting-href06/03 18:56
謝謝,但不是撈所有的url,我想要先抓到 十分鐘資料後再抓到和它一起的123.hml
ThxThx: 我看起來你的做法是把HTML code看成是純文字來處理 06/03 19:39
ThxThx: 為何不先把他parse成結構化的資料? 06/03 19:39
沒錯...我是以純文字操作,我原以為能自幹功能XD...看來還是要用parse,想說或許 能節省點效能XDD 只不過剛用bs4 + lxml後 還是會有分行的狀況QQ ※ 編輯: KeyBoardKill (49.158.30.145), 06/03/2018 20:22:49
kobe8112: 爬蟲還是建議用selector啦,不管是CSS或是XPATH 06/03 23:09
kobe8112: 這樣遇到問題自己比較容易除錯,板友也容易幫忙 06/03 23:20