作者KeyBoardKill (✩鍵✩盤✩戮✩)
看板Python
標題[問題] 該如何靠一個定位點抓取上層資料?
時間Sun Jun 3 18:38:31 2018
各位好,做爬蟲又遇到了個問題...基本上來源會有 ID 跟 Number ,我必須靠Number
來追蹤到ID,目前已經能做到追蹤到Number但ID跟Number不同行,我不懂該如何提取
能給我點提示嗎?謝謝
範例:.....
str = '''
<li><a href="123.html" target=_blank class="Observe24">
十分鐘資料</a></li>
'''
如果是整行同一行我就有辦法使用split來抓到並清洗出我要的123.html
但現在如果分行了,我只能抓到 唯一識別值:十分鐘資料,我不知道應該怎麼回推
從我在原始碼找到十分鐘的資料後,往上一行獲取到 123.html 這個值
懇請指點 謝謝
--
◢ ◣
● █
≡◥◣ ◢
◣
】 。 \。【 這個板需要更高竿的酸民
● //﹀\\● ◥
◤
】 ╰═╯【 ◤
◢◥ ◤◣
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.158.30.145
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1528022314.A.E65.html
推 ringlwe: 是不是這個呀06/03 18:56
→ ringlwe: soup-getting-href06/03 18:56
謝謝,但不是撈所有的url,我想要先抓到
十分鐘資料後再抓到和它一起的123.hml
推 ThxThx: 我看起來你的做法是把HTML code看成是純文字來處理 06/03 19:39
→ ThxThx: 為何不先把他parse成結構化的資料? 06/03 19:39
沒錯...我是以純文字操作,我原以為能自幹功能XD...看來還是要用parse,想說或許
能節省點效能XDD
只不過剛用bs4 + lxml後 還是會有分行的狀況QQ
※ 編輯: KeyBoardKill (49.158.30.145), 06/03/2018 20:22:49
→ kobe8112: 爬蟲還是建議用selector啦,不管是CSS或是XPATH 06/03 23:09
→ kobe8112: 這樣遇到問題自己比較容易除錯,板友也容易幫忙 06/03 23:20