看板 Python 關於我們 聯絡資訊
各位前輩大家好 目前正在學習python來當網路爬蟲 之前用BS成功抓取table的資料 也知道BS的強大 後來發現BS還是有他的瓶頸 因為他不是瀏覽器 他無法幫我們選取按鈕或觸發AJAX 後來爬文後發現selenium好像可以實現這些行為 透過觸發後 就可以獲得BS原本無法得到的資訊 例如要onclick後才會出現的網址或按鈕 我只要用selenium去觸發onclick 就可以獲得網址 然後再用BS去分析這個網址 看起來我自己好像已經講完了 但其實我不是很肯定我的理解對不對 希望各位大神能幫我解答 看看是否正確 如果方便的話 也麻煩大家提醒我 我的理解還有哪些不足 感謝大家! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.232.184.189 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1455530682.A.8FE.html ※ 編輯: peace9527 (36.232.184.189), 02/15/2016 18:05:29
Thisisnotptt: bs只是用來處理你抓下來的網頁文字檔,所以seleniu 02/15 19:25
Thisisnotptt: m跟bs應該是不衝突的 02/15 19:25
MOONY135: 不衝突 要做動作的話request好像也可以 02/15 21:59
xlk: 一般用selenium+css/xpath selector抓element text, 除非需要 02/16 00:57
xlk: 複雜互動再考慮混用。高效應該還是BS only抓已知網址內容。 02/16 00:57
xlk: request data/url/selector當然就靠browser developer tool功 02/16 01:02
xlk: 能找出來 02/16 01:02
blc: 叫做 Headless browser 的樣子。 02/16 14:08
blc: 我錯了,selenium跟headless browser差頗多。 02/25 13:47
xlk: selenium可以用phantomjs的ghostdriver是headless的… 03/05 22:32
xlk: 前面說的不太對.selenium適合需要複雜互動時用 一般BS就夠 03/05 22:37