看板 Python 關於我們 聯絡資訊
靠杯 文章打一半被PTT吃掉 重打= = 爬蟲以我的觀點來看,就是網站資料的逆向工程 所以搞清楚網站資料的一些細節是很重要的 ---- 以原PO的網頁範例來說,原PO想爬的是某個表單送出之後的資料 那第一個重點是,我們到底對哪個網頁送出了我們的表單內容 所以我們先來觀察看看吧 https://i.imgur.com/67whTKj.png
從這張圖我們可以看到,每次我送出查詢資料時,他都會把資料送給 https://www.taiwanmobile.com/cs/public/storeAction.do?method=searchLBS 這個網站,所以目標搞清楚了,再來是思考需要送什麼資料 於是需要送什麼資料同一張圖也看的到 搞清楚這兩點之後,就可以先做第一次測試 res = requests.post(url, params = form_data) print res.text 發現結果:https://i.imgur.com/izxeW4Z.png
耶,有東西了 所以我們可知,這查詢網頁沒有檢查其他的東西 原PO可以觀察chrome同頁面的response 會發現他回傳的內容就是我們爬蟲爬到的 然後,建議原PO可以了解一下什麼是json格式 例如這網址回傳回來的資料就是json格式的 那再利用json做處理就好 ---- -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.230.89.213 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1506175464.A.DBD.html
coeric: 推 臺哥大是給json 棒棒的 09/23 22:40
neil987: 我其實還遇到一個點是我抓不到這網站給的jsessionid 09/23 23:18
vi000246: 你把cookie清掉 這個request會回傳新的sessionid 09/24 02:36
unhumanWu: 感謝大大,另外想問一下這方面有沒有建議的書或網站 09/24 08:44
unhumanWu: 可以參考的,感恩~ 09/24 08:45
vi000246: 最近在看的 這本不錯https://goo.gl/NgQELL 09/24 15:43
unhumanWu: 推 09/24 21:47
togetherhoo: 原原po加油 09/24 23:30