Re: [問題] 爬取網站的excel檔案

作者jn8029 (魯)

看板Python

標題Re: [問題] 爬取網站的excel檔案

時間Wed Apr 3 07:19:42 2019

※ 引述《yshihyu (yshihyu)》之銘言： : https://gist.github.com/shihyu/cafbf8feeb1dbb821084504fcd2c544b // 目前程式碼 : 我想爬取 http://mopsfin.twse.com.tw/ 網站的excel 文件 : 目前是從 requests.post 出來結果不是chrome分析的那個頁面 : 想請問一下可能原因是？ : 我看chrome 分析會有 jsessionid ? 是要產生這個才可以嘛？ : Request URL: : http://mopsfin.twse.com.tw/compare/data;jsessionid=948EF4B129CCA4E8F4FA1A8991AC72F8 : 還有我看點選excel 下載好像是javascript 功能有辦法透過直接下載嘛？ : 還是說javascript 必須要用 selenium？ : 謝謝剛試了一下可以直接下載 jsessionid你可以先get首頁之後抓他藏這 <link rel="icon" type="image/png" href="/resources/images/favicon-32x32.png; jsessionid=F353143C92325BE0902E08030FE14F71" sizes="32x32"> 然後下載excel的url是/export/data 不是compare/data 你可以用chrome的developer tool看一下你按下載excel之後他的payload有啥把payload放對 url放/export/data 然後jsessionid放進去就可以了不用selenium -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.177.86.170 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1554247185.A.40B.html