看板 Python 關於我們 聯絡資訊
大家好,小弟剛接觸python幾天... 有個資料查詢的問題一直無法解決 (http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx ) 該網站查詢的資料結果是url不變並以js呈現(請見諒非本科系的形容@@") 且結果若超過60筆,才會出現下一頁的按鈕可以點選 所以碰到的問題是在顯示資料之前 第2、3頁...下一頁的按鈕不會出現 而按鈕的方式是以javascripl:__doPostBack的方式寫入 因此問題有兩個: 1.我該如何才能獲得第1頁之後的資料 目前查到的方法好像要利用requests.session方法 但是怎麼寫都跑不出來 2.有辦法可以在查詢後,直接利用"下載"這個按鈕下載資料嗎 爬文後不知道能否利用request後,再配合selenium 只是找到的文章大多是利用cookie帶入,好像不適合這個網頁 不知道是否有善心版友可以協助指導新手... 以下附上查詢的code跟試著加入session的code 單純查詢一次性資料: # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import pandas as pd resp = requests.get('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx') soup = BeautifulSoup(resp.text, 'html5lib') view_state = soup.find(id='__VIEWSTATE')['value'] event_validation = soup.find(id='__EVENTVALIDATION')['value'] viewstate_generator = soup.find(id='__VIEWSTATEGENERATOR')['value'] form_data = { '__VIEWSTATE': view_state, '__VIEWSTATEGENERATOR': viewstate_generator, '__EVENTVALIDATION': event_validation, 'ctl00$contentPlaceHolder$txtStartDate':'106/12/01', 'ctl00$contentPlaceHolder$txtEndDate':'107/03/15', 'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$radlMarketRange':'P', 'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$lstMarket':'109', 'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$radlProductType':'V', 'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$lstProduct':'FA0', 'ctl00$contentPlaceHolder$dropProductClass':'1', 'ctl00$contentPlaceHolder$btnQuery':'查詢' } resp = requests.post('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx', data=form_data) df = pd.read_html(resp.text)[6].dropna(axis=0, how='any') print(df) --------------------------------------------------------------------------- 加上session,但是資料一直無法跳到第2頁> < : import requests from bs4 import BeautifulSoup import pandas as pd resp = requests.get('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx') soup = BeautifulSoup(resp.text, 'html5lib') with requests.session() as s: s.headers['user-agent'] = 'Mozilla/5.0' soup = BeautifulSoup(resp.content, 'html5lib') target = ( 'ctl00$contentPlaceHolder$dataPager$ctl02$ctl{:02d}' ) # unsupported CSS Selector 'input[name^=ctl00][value]' data = { tag['name']: tag['value'] for tag in soup.select('input[name^=ctl00]') if tag.get('value') } state = { tag['name']: tag['value'] for tag in soup.select('input[name^=__]') } data.update(state) view_state = soup.find(id='__VIEWSTATE')['value'] event_validation = soup.find(id='__EVENTVALIDATION')['value'] viewstate_generator = soup.find(id='__VIEWSTATEGENERATOR')['value'] form_data = { '__VIEWSTATE': view_state, '__VIEWSTATEGENERATOR': viewstate_generator, '__EVENTVALIDATION': event_validation, 'ctl00$contentPlaceHolder$txtStartDate':'106/12/01', 'ctl00$contentPlaceHolder$txtEndDate':'107/03/15', 'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$radlMarketRange':'P', 'ctl00$contentPlaceHolder$ucCoopVegFruitMarket$lstMarket':'109', 'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$radlProductType':'V', 'ctl00$contentPlaceHolder$ucCoopVegFruitMainProduct$lstProduct':'FA0', 'ctl00$contentPlaceHolder$dropProductClass':'1', 'ctl00$contentPlaceHolder$btnQuery':'查詢' } # data['ctl00$FhMainContent$FhContent$ctl00$AnalysesCourse$CustomPager$total'] resp = requests.post('http://amis.afa.gov.tw/m_coop/CoopVegFullMarketMainProd.aspx', data=form_data) soup = BeautifulSoup(resp.text, 'html5lib') sl = soup.find_all("span") last_page = '+'.join([span.get_text() for span in sl][-2]) # for page in range(last_page + 1): for page in range(int(last_page)): data['__EVENTTARGET'] = target.format(page) df = pd.read_html(resp.text)[7].dropna(axis=0, how='any') print(df) 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.170.50 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1521254934.A.7ED.html ※ 編輯: truth1999 (180.217.170.50), 03/17/2018 10:51:12
froce: 你都用selenium了,就直接用selenium模擬點擊就好。 03/17 11:17
froce: 這網站不需要登入也能下載,你應該不用去考慮cookies問題。 03/17 11:18
froce: 當然如果要快的話,還是得用requests去找ajax的網址去取得 03/17 11:22
froce: 結果。 03/17 11:22
froce: 另外他是用ajax去取下一頁,每次傳回一頁(60筆)的結果(htm 03/17 11:30
froce: l)。 03/17 11:30
froce: __doPostBack('ctl00$contentPlaceHolder$dataPager$ctl01$ 03/17 11:30
froce: ctl0「頁數減1」','') 03/17 11:30
froce: 上面是他控制頁數的javascript機制。 03/17 11:31
是的,只是妙的是,它的"下一頁"js的控制頁數都是使用 ctl00$contentPlaceHolder$dataPager$ctl02$ctl00,並且不會變動 所以我原本想簡單一點,直接由結果抓到共x頁,然後執行x-1次換頁即可
froce: 詳細的話,得教你怎麼看browser的開發者工具,才能講得清 03/17 11:32
froce: 楚。 03/17 11:32
froce: 只能說你選錯網站了,新手沒網頁整體基礎學爬蟲,爬到asp w 03/17 11:35
froce: eb form就是個悲劇,最簡單就是利用selenium去模擬人點擊了 03/17 11:35
froce: 。 03/17 11:35
truth1999: 請問f大,所以儘管它是使用doPostBack,還是可以將 03/17 11:49
truth1999: ajax所得到html解出來嗎? 03/17 11:51
truth1999: 一開始是學selenium,不過碰到選日期的年、月卡住 03/17 11:52
truth1999: 選不了年跟月,所以才學requests,途中也發現我好像選 03/17 11:53
truth1999: 錯網站了(選到大魔王之類的...),先謝謝您的回覆,感恩 03/17 11:53
froce: 他執行選頁動作後,傳回的結果就是當頁的html。 03/17 13:18
froce: 另外你要選日期,就照日期格式,對input做.send_keys()就 03/17 13:22
froce: 行了啊。 03/17 13:22
froce: input.send_key("107/03/17")類似這樣。 03/17 13:22
froce: 基本上,asp web form會送很多框架使用的request field, 03/17 13:25
froce: 並且使用ajax去做很多的動作,很容易造成初學爬蟲者混淆。 03/17 13:25
vi000246: 還好啦 asp.net都是用固定的控制項 去網路找一定有解法 03/17 14:21
vi000246: 不像其他網頁 各種換頁方式都有 解讀起來比較複雜 03/17 14:22
vi000246: 你按F12 觀察它換頁按鈕的html 會呼叫javascript 03/17 14:29
vi000246: 按下去會將值賦到隱藏欄位再post 再觀察network 03/17 14:29
vi000246: 裡的變數 就大概知道asp.net運作的原理了 03/17 14:30
froce: 我們看慣的當然還好啊。哈 03/17 14:32
vi000246: https://imgur.com/a/PSR5L 03/17 14:33
vi000246: asp.net的網頁是最好google的 不像其他的要靠臨機應變XD 03/17 14:33
alansyue: selenium 03/17 14:51
froce: 哈,v你這樣說也對,因為看到要爬都已經習慣性的開開發者模 03/17 17:20
froce: 式直接看送啥request了,根本沒想到對asp web form來google 03/17 17:20
froce: 爬蟲。Orz 03/17 17:20
謝謝f大、v大跟a大的回覆與建議,v大提到的部份我有注意到 承上回覆,所以我有嘗試將換頁按鈕js的dopostback參數寫入。 不管是頁碼按鈕(值為頁數-1)、或者是下一頁按鈕(值不變), 還是寫不出如何在第一次取得requests後,再送出eventTarget 來拿到下一頁的查詢結果... 可能是因為此網站的設定是,要取到第一次的查詢後, 才會觀察(搜尋?)到eventTarget,所以這是我困擾的點>< ※ 編輯: truth1999 (180.217.170.50), 03/17/2018 18:02:07
coeric: 注意第二頁開始,有多些參數要送 03/18 01:09
coeric: hfldTransVolume、hfldTransAmount、hfldAvgPrice 這三個 03/18 01:10
coeric: 我可正常爬完(不過code很亂,整理完再分享了) 03/18 01:11
truth1999: 謝謝c大指點,我自己也來試試看 03/18 02:24
謝謝C大的資訊,真的在第二頁開始加上參數就可以了 超級感謝您 ※ 編輯: truth1999 (180.217.170.50), 03/18/2018 14:07:34
coeric: 一樓的froce才是重點,要去看開發者模式 03/19 13:15