看板 Python 關於我們 聯絡資訊
各位高手大大晚安 我想抓取下圖的資料檔 https://i.imgur.com/tmpyyZy.jpg 已經知道圖表的資料是從這個網址匯入 https://i.imgur.com/znv2SKe.jpg 但是我直接把這段網址貼到瀏覽器會說找不到網頁 https://i.imgur.com/PRKcbtJ.jpg 不曉得是哪裡有放過濾機制 因為如果後面參數不要放那麼多 是可以抓到股價資料 但是主力,券商買賣家數怎麼試就是沒辦法 不曉得有沒有經驗的大大指點一下 卡了2天了QQ https://histock.tw/stock/main.aspx?no=2330 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.66.220 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1593614461.A.060.html
cuteSquirrel: GET裡面的header要設定user-agent和referer 07/01 23:04
cuteSquirrel: 所要的資訊可以在原本截圖Response Headers裡面找到 07/01 23:07
alvinlin: 和回neiltsang的一樣, 用https://curl.trillworks.com/ 07/01 23:21
be00148: @cuteSquirrel 之前我只有加 user-agent 07/01 23:23
be00148: 原來還要加referer 不過要如何判斷header應該加哪些資料 07/01 23:23
be00148: ? 07/01 23:23
be00148: @cuteSquirrel 真的謝謝了 受小弟一拜<O> 07/01 23:24
alvinlin: https://i.imgur.com/0pakzBg.jpg 07/01 23:25
cuteSquirrel: 就從常見的幾個開始試吧 爬蟲滿常遇到這些情況 07/01 23:29
cuteSquirrel: 不客氣~ 07/01 23:29
alvinlin: 其實沒有一定。通常都是用上述方法後一個個刪減到最少。 07/01 23:31
alvinlin: 這都是爬多了就會知道了。懶得刪也ok。 07/01 23:33
be00148: A大 謝謝 試到最後 只留referer就好XD 07/01 23:33
alvinlin: ^^great!我的理解是這完全取決於伺服器端怎麼做的。 07/01 23:36
be00148: 我可以再問一個問題嗎 抓下來的資料看起來像json 讀取後 07/01 23:39
be00148: 資料的部分變成字串 有什麼方式可以快速轉換為list嗎 07/01 23:39
cuteSquirrel: 可以用response.json()拿到python dict 07/01 23:47
cuteSquirrel: 用dev tool看到的key去抓字串,再用re去擷取 07/01 23:51
alvinlin: 嗯。再import json;json.loads() 07/01 23:52
alvinlin: https://i.imgur.com/qm5Vt8A.jpg 07/01 23:54
alvinlin: 如上圖。K就變成list了 07/01 23:55
alvinlin: https://i.imgur.com/m6iwnAk.jpg 07/01 23:58
be00148: 針對"[[a,1],[b,2]]"這種字串型態資料用json.loads() 就 07/02 00:03
be00148: 可以轉成list 謝謝了 07/02 00:03
alvinlin: ^^。順便也可以去參考skcom 0.9.4 07/02 00:23
alvinlin: 嗯..最近好像到0.96了。 07/02 00:23