看板 R_Language 關於我們 聯絡資訊
- 問題: 各位大神前輩大大們好, 問題如下: Google play '所有'評論抓取疑問, 想爬取如下圖之'所有'評論 https://imgur.com/a/zpxnf [問題敘述]: Google play 中用戶對於 APP 的評論, Google限制只能抓取前40筆, 參照 stack overflow 的 script後, 卻不能如期抓取任何內容. 另外, 發現 Google 找尋其他方法時, Python的大多解法, 最多可以抓取500評論, 但依循其想法, 在 R 的 script 中, Request refer 卻怪怪的, 故特此懇求版上的大大能指點迷津! [程式範例]: library(httr) library(stringr) baseUrl <- 'https://play.google.com/store/getreviews?authuser=0' urls <- 'https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW' dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*', 'accept-encoding' = 'gzip, deflate, br', 'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7', 'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8', 'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>% content %>% as.character ## 發現 https://play.google.com/store/getreviews?authuser=0' 並無此網址 dataJson [關鍵字]: Google play, Crawler, 爬蟲 非常感謝各位大大! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.202.129 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1511368335.A.95B.html
sulaxd: https://pastebin.com/5cvV8YNt 11/26 19:26
sulaxd: 把id換成你要擷取的com.gravity.ro.and就可以 11/26 19:29
x9060000456: 超感謝S大!!!!!!!! 11/28 14:31