看板 Python 關於我們 聯絡資訊
各位哥大家好,最近開發爬蟲的時候遇到了一些問題想請教一下爬蟲高手們 我在做一個自己用的工具可以模擬使用者的動作,產生python送請求的script 主要是透過Chrome的開發者工具,把使用者操作時執行的請求跟結果匯出.har檔, har檔裡面會用json格式記錄每一個送出的請求跟相關的資訊 我遇到的問題是在其中一個請求裡面的header 他在har檔案裡面的Content-Length是40 ``` "name": "Content-Length", "value": "40" ``` https://imgur.com/a/EmdSkxU 但是我執行的時候他會一直卡在request.post()那邊 所以我後來才加上timeout參數讓他斷線 後來試了一下發現如果把 Content-Length 值改成0他就可以正常送出請求 我好奇的是為什麼一樣的header 在Chrome操作的時候可以正常執行,但到程式裡面就不正常了 是網站有什麼特別的機制讓他偵測到我python的連線是有問題的連線嗎 附上那個有問題的Request相關資料 https://reurl.cc/Oq0QQy 如果真的是網站牛逼,各位爬蟲大師在面對類似這種問題的時候是怎麼樣去排除的 因為我今天是HEADER一個一個試,剛好遇到只要改一個欄位就可以正常執行的情況 如果他可能是HEADER中N個欄位都要做這種事的話可能就會花很多時間 再麻煩了,感謝 --
timhk108: 雨八07/15 22:00
victoryss: 田ㄙ07/15 22:03
timhk108:...什麼雷公!再給你一次機會 雨八07/15 22:14
mcsam: 云木07/15 22:30
timhk108:什麼雲朵!!最後一次! 雨八07/15 22:32
victoryss: 云ㄙ07/15 22:34
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 211.75.101.50 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1598615537.A.54E.html ※ 編輯: e23882 (211.75.101.50 臺灣), 08/28/2020 20:00:28
TakiDog: 不用帶長度,requests會自己算跟帶 08/28 20:16