[問題] selenium爬取不了完整頁面資訊

作者swwy1661 (小玉米)

看板Python

標題[問題] selenium爬取不了完整頁面資訊

時間Fri Jun 14 17:10:23 2019

各位大大好，小弟是自學爬蟲新手，請多多指教！小弟有2個問題想詢問~ 第一個問題是，小弟目前在練習爬取視頻，遇到了一個網頁，是需要點擊撥放，跳到專屬的撥放器，才會跳出真實的網頁地址如verystream! 所以小弟就使用selenium進行以下的操作 browser.find_element_by_xpath('//*[@id="btn2"]').send_keys(Keys.ENTER) time.sleep(10) page_source = browser.page_source print(page_source) browser.quit() selenium確實轉換到VS之撥放器，且網頁內容也加載了mp4的url 但抓取page_sourece還是沒有獲得此地址，希望有大大可以幫忙解、解答第二個問題，小弟想問，有些網址，不論是用request或selenium都無法獲取全部的元素是甚麼原因呢?有甚麼關鍵字能找到學習這類類似反爬蟲相關的文章嗎? 以上,拜託大大們幫忙解答或提供思路了,謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.176.130 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1560503425.A.39D.html

推 bugbug777: 我也是有點興趣不過你要附一下圖片還是網頁的網址 06/14 23:49

→ bugbug777: 不然看不懂 06/14 23:49

→ s860134: 通常頁面播放器都是走 JS 你要抓的話可能要撈 network 06/15 15:23

→ TakiDog: 現在看到 hmm 你的verysteam不知道是不是跟我做的一樣 06/17 02:15

→ TakiDog: 我做過直到目前還能使用 https://reurl.cc/Qkj5p 06/17 02:16

→ TakiDog: 只是自己在用的命名就:) 06/17 02:17

→ swwy1661: 謝T大，但無法使用，我的那個網站沒辦法直接找到真實地 06/22 19:58

→ swwy1661: 址，後來通過selenium點擊其他網站，達成找到真實目標 06/22 19:58

→ swwy1661: ，完成爬蟲。 06/22 19:58