作者royt (lulu)
看板Python
標題[問題] 爬蟲下拉式選單xml資料擷取
時間Tue May 2 22:49:25 2017
目標是登入網頁帳密,裡面有兩組下拉選單
其中一組是年度,每個年度有數組資料
資料內容類似問卷
要把每筆資料輸出成xml
點選不同筆資料url不變
我是用request登入
但不知道怎麼用request去抓選單的選項
目前想到用selenium find_element_by_name select_by_value
取得選單選項,再把變數用
f=requests.session()
r=f.get(url, params=variable)
的方式抓每筆資料
但selenium的速度慢很多
不知道有沒有更直接的做法?
-----
Sent from JPTT on my Samsung GT-I9300.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.136.240.162
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1493736570.A.F8B.html
→ s860134: 要看他網頁是怎麼做的,如果是用 js 動態的讀取資料05/04 08:18
→ s860134: 那你就要想辦法去模仿發他發的request,轉成你的 code05/04 08:19
→ s860134: 如果是資料一開始就在 htmlsource 裡面的話,隨便爬囉05/04 08:20
資料不在html裡,請問要從他的code哪部分知道request的方法呢?
※ 編輯: royt (114.136.17.213), 05/05/2017 15:00:15
→ twkoci: 用chrome dev tools可觀察request body 05/05 16:12
推 david31408: 所以要會讀xml ? html5? 還是CSS (對不起 超新手 :( 05/16 11:19