Re: [問題] 網路爬蟲 抓不到標籤<img>的src屬性

作者rexyeah (ccccccc)

看板Python

標題Re: [問題] 網路爬蟲抓不到標籤<img>的src屬性

時間Sun Nov 11 21:29:57 2018

不在意速度的話... from selenium import webdriver from bs4 import BeautifulSoup url = 'https://v.comicbus.com/online/comic-103.html?ch=924' browser = webdriver.PhantomJS() browser.get(url) html = browser.page_source soup = BeautifulSoup(html, 'html.parser') img_url = 'https:%s' % soup.find('img', {'id': 'TheImg'})['src'] print img_url ==== 不過其實phantomjs已經deprecated了，但還是可以用。上面那段我自己跑過，可以抓到，只是真的很慢 ※ 引述《bugbug777 (sil)》之銘言： : 大家好，小魯是個網路爬蟲新手 : 最近想來寫一個下載圖片的網路爬蟲 : 這裡附上簡短的程式碼 : <img border="0" id="TheImg" name="TheImg"/> : 似乎抓不到src的這個屬性，請問這是為什麼？ : 圖示8comic的海賊王924話圖片 : https://imgur.com/ccnRjKr -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.207.149 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1541943001.A.D7D.html

推 bugbug777: 請問用火狐可以嘛還是你只是隨便挑一個瀏覽器用@@a 11/11 21:55

→ rexyeah: 都可以我只是順手用個default headless的driver 11/11 22:06

→ bugbug777: 謝謝你喔還貼出完整的程式碼 11/11 22:15

→ zo6596001: 我在上一串貼的圖用火狐，是因為在Linux比較好裝 11/12 00:34