[問題] 該如何靠一個定位點抓取上層資料？

作者KeyBoardKill (✩鍵✩盤✩戮✩)

看板Python

標題[問題] 該如何靠一個定位點抓取上層資料？

時間Sun Jun 3 18:38:31 2018

各位好，做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ，我必須靠Number 來追蹤到ID，目前已經能做到追蹤到Number但ID跟Number不同行，我不懂該如何提取能給我點提示嗎？謝謝範例:..... str = ''' <li><a href="123.html" target=_blank class="Observe24"> 十分鐘資料</a></li> ''' 如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html 但現在如果分行了，我只能抓到唯一識別值：十分鐘資料，我不知道應該怎麼回推從我在原始碼找到十分鐘的資料後，往上一行獲取到 123.html 這個值懇請指點謝謝 -- ◢ ◣ ● █≡◥◣ ◢ ◣ 】。 \。【這個板需要更高竿的酸民 ● //﹀\\● ◥ ◤ 】 ╰═╯【 ◤ ◢◥ ◤◣ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.30.145 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1528022314.A.E65.html

推 ringlwe: 是不是這個呀06/03 18:56

→ ringlwe: https://stackoverflow.com/questions/5815747/beautiful06/03 18:56

→ ringlwe: soup-getting-href06/03 18:56

謝謝，但不是撈所有的url，我想要先抓到十分鐘資料後再抓到和它一起的123.hml

推 ThxThx: 我看起來你的做法是把HTML code看成是純文字來處理 06/03 19:39

→ ThxThx: 為何不先把他parse成結構化的資料？ 06/03 19:39

沒錯...我是以純文字操作，我原以為能自幹功能XD...看來還是要用parse，想說或許能節省點效能XDD 只不過剛用bs4 + lxml後還是會有分行的狀況QQ ※ 編輯: KeyBoardKill (49.158.30.145), 06/03/2018 20:22:49

→ kobe8112: 爬蟲還是建議用selector啦，不管是CSS或是XPATH 06/03 23:09

→ kobe8112: 這樣遇到問題自己比較容易除錯，板友也容易幫忙 06/03 23:20