[問題] Selenium與BeautifulSoup有什麼不同?

作者peace9527 (謝謝你9527)

看板Python

標題[問題] Selenium與BeautifulSoup有什麼不同?

時間Mon Feb 15 18:04:39 2016

各位前輩大家好目前正在學習python來當網路爬蟲之前用BS成功抓取table的資料也知道BS的強大後來發現BS還是有他的瓶頸因為他不是瀏覽器他無法幫我們選取按鈕或觸發AJAX 後來爬文後發現selenium好像可以實現這些行為透過觸發後就可以獲得BS原本無法得到的資訊例如要onclick後才會出現的網址或按鈕我只要用selenium去觸發onclick 就可以獲得網址然後再用BS去分析這個網址看起來我自己好像已經講完了但其實我不是很肯定我的理解對不對希望各位大神能幫我解答看看是否正確如果方便的話也麻煩大家提醒我我的理解還有哪些不足感謝大家! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.232.184.189 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1455530682.A.8FE.html ※ 編輯: peace9527 (36.232.184.189), 02/15/2016 18:05:29

推 Thisisnotptt: bs只是用來處理你抓下來的網頁文字檔，所以seleniu 02/15 19:25

→ Thisisnotptt: m跟bs應該是不衝突的 02/15 19:25

→ MOONY135: 不衝突要做動作的話request好像也可以 02/15 21:59

推 xlk: 一般用selenium+css/xpath selector抓element text, 除非需要 02/16 00:57

→ xlk: 複雜互動再考慮混用。高效應該還是BS only抓已知網址內容。 02/16 00:57

→ xlk: request data/url/selector當然就靠browser developer tool功 02/16 01:02

→ xlk: 能找出來 02/16 01:02

→ blc: 叫做 Headless browser 的樣子。 02/16 14:08

→ blc: 我錯了，selenium跟headless browser差頗多。 02/25 13:47

→ xlk: selenium可以用phantomjs的ghostdriver是headless的… 03/05 22:32

→ xlk: 前面說的不太對.selenium適合需要複雜互動時用一般BS就夠 03/05 22:37