作者haru97724 (haruru)
看板Python
標題[問題] 機票網站爬蟲問題
時間Sat May 26 17:16:43 2018
大家安安~~
我最近開始學python,想要爬機票的資料
因為不是資工相關科系的學生,所以我目前都是看網路上的教學學的
我目前是用selenium爬ctrip的網站
https://www.ctrip.com.hk/flights/
按下搜尋後,在檢查的network那邊會有機票的資料被存在SearchFlights的XHR裡面
這裡會有兩個都是叫SearchFlights的XHR
有一個是一開始就有,但他只有頭幾筆資料
另一個要等一陣子,這個才有全部資料
http://i.imgur.com/VrVUUB5.jpg
我用selenium打開之後,對他requests.post
因為request的url都一樣,所以出來都只給我頭幾筆資料的那個
在他請求的參數裡面是有seaechToken不一樣
但改了之後,回給我的資料還是只有頭幾筆
所以想問各位大大,遇到這種會延遲的該怎麼爬??
有沒有辦法讓他回傳所有機票資料
因為讓他sleep也沒用...
不好意思,麻煩大家了
・゚・(。>Д<。)・゚・
・゚・(。>Д<。)・゚・
-----
Sent from JPTT on my Asus ASUS_Z016D.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.71.68.128
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1527326206.A.AEA.html
※ 編輯: haru97724 (111.71.68.128), 05/26/2018 17:22:29
→ tlaceruse: 兩階段post的參數一樣嗎05/27 10:07
post的參數只有searchToken不一樣,但改了結果還是一樣。
推 TakiDog: 檔案要等,會在網頁元素中出現就寫個迴圈等元素載入完,05/27 17:18
→ TakiDog: 或是考慮純封包別用selenium搞不好簡單的多05/27 17:18
可是如果等他跑完,我再request一次,這樣不就又重新來一次了嗎?
我去研究一下不用selenium的方法XDD
※ 編輯: haru97724 (111.71.68.128), 05/27/2018 18:33:50