[問題] python 爬取pchome資料

作者kobe52072200 (吳小帥)

看板Python

標題[問題] python 爬取pchome資料

時間Mon Apr 11 11:42:43 2016

大家好小弟最近剛開始學網路爬蟲剛好看到有老師在網路上教學教學連結如下 http://www.largitdata.com/course/9/ 由於範例影片是用淘寶舉例我就想說那改來爬Pchome 最近剛好想買電動刮鬍刀於是在Pchome首頁搜尋電動刮鬍刀跑出項目後寫以下的程式 import requests import bs4 from BeautifulSoup as bs res = requests.get(' http://ecshweb.pchome.com.tw/search/v3.3/?q=%E9%9B%BB%E5%8B%95%E5%88%AE%E9%AC%8D%E5%88%80') soup = bs(res.text, "html.parser") print soup 想說先看一下soup列印出來後有沒有包含網業上的品項資訊但卻沒有之後的步驟也不知道怎麼進行下去了上述的網址是在搜尋頁面按右鍵→檢查→Network→類型選擇Doc 得到的url 不知道有沒有版友爬過Pchome 可以教教小弟嗎謝謝大家~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.248.2.226 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1460346166.A.9D2.html

推 Yshuan: 我看是在<dd id="ItemContainer">裡面撈不到嗎? 04/11 13:34

推 Thisisnotptt: 剛剛試了一下，應該是JS的問題，所以我改用selenium 04/11 13:38

→ Thisisnotptt: 之後就搞定了 http://codepad.org/QeZAV5HO 04/11 13:39

→ Thisisnotptt: pip 可以直接裝，然後抓這個放入在同目錄: 04/11 13:41

→ Thisisnotptt: http://phantomjs.org/download.html 04/11 13:41

→ kobe52072200: 謝謝T大回答我現在出現錯誤訊息 04/11 16:41

→ kobe52072200: 'phantomjs' executable needs to be in PATH 04/11 16:41

→ kobe52072200: 我不知道要把載下來的selenium丟到哪裡 ~ 04/11 16:42

→ kobe52072200: 再麻煩T大了謝謝 ~ 04/11 16:42

→ kobe52072200: 說錯是phantomjs~ 04/11 17:48

推 Thisisnotptt: 耶? 解壓縮之後會是一個資料夾對吧? 裡面有bin資料 04/11 20:51

→ Thisisnotptt: 夾，裡面有phantomjs。把路徑改成他就可以了，或是 04/11 20:51

→ Thisisnotptt: 把這個phantomjs抓出來放在同木錄下他就會找得到了 04/11 20:52

→ Thisisnotptt: 應該有這個就搞得定了。 04/11 20:53