作者x9060000456 (你好)
看板R_Language
標題[問題] Google play 評論所有爬蟲(Crawler)
時間Thu Nov 23 00:32:12 2017
- 問題:
各位大神前輩大大們好, 問題如下:
Google play '所有'評論抓取疑問,
想爬取如下圖之'所有'評論
https://imgur.com/a/zpxnf
[問題敘述]:
Google play 中用戶對於 APP 的評論,
Google限制只能抓取前40筆,
參照 stack overflow 的 script後,
卻不能如期抓取任何內容.
另外, 發現 Google 找尋其他方法時,
Python的大多解法, 最多可以抓取500評論,
但依循其想法, 在 R 的 script 中,
Request refer 卻怪怪的,
故特此懇求版上的大大能指點迷津!
[程式範例]:
library(httr)
library(stringr)
baseUrl <- '
https://play.google.com/store/getreviews?authuser=0'
urls <-
'
https://play.google.com/store/apps/details?id=com.gravity.ro.and&hl=zh-TW'
dataJson <- GET(baseUrl, add_headers(Referer = urls, 'accept' = '*/*',
'accept-encoding' = 'gzip, deflate, br',
'accept-language' = 'en-US,en;q=0.9,zh-TW;q=0.8,zh;q=0.7',
'content-type' = 'application/x-www-form-urlencoded;charset=UTF-8',
'user-agent' = 'Mozilla/5.0 (Windows NT 6.3; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36')) %>%
content %>% as.character
## 發現
https://play.google.com/store/getreviews?authuser=0' 並無此網址
dataJson
[關鍵字]:
Google play, Crawler, 爬蟲
非常感謝各位大大!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.202.129
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1511368335.A.95B.html
→ sulaxd: 把id換成你要擷取的com.gravity.ro.and就可以 11/26 19:29
→ x9060000456: 超感謝S大!!!!!!!! 11/28 14:31