作者bckkt (bckkt)
看板Python
標題[問題] 如果爬回來的response部分內容有加密?
時間Sat Mar 3 22:25:11 2018
如題
拿到response之後,做了一次URL decode才看到json的結構
直接貼到json editor online,有報錯
後來丟到dirtymarkup,發現有些地方長得如下
https://imgur.com/VA6hn8u
https://imgur.com/4OVZkFh
每個response都會有3~4處長這樣,json格式會被破壞,似乎網站會隨機找幾處來加密
請問有沒有大大遇過這種的ORZ,被加密的資料佔了要爬的資料很大一部分
因為爬的是籃球比賽即時的分數,所以能不用selenium就不用
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.148.18
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1520087113.A.2AA.html
推 ckc1ark: 就看他怎麼解的照做囉 03/03 23:05
→ bckkt: 謝謝回應,大大的意思是說把網站載下來,看網站的.js來找? 03/03 23:14
→ s860134: 看起來還是 json format? 通常這個是 base64 03/04 12:44
→ s860134: import base64;base64.b64decode 03/04 12:45
→ WunoW: 你去宮廟找人幫你通靈比較快 03/04 20:13