→ andrew43: 不清楚所謂「排行榜」是指什麼?可以截個圖嗎? 08/08 23:55
→ x9060000456: 謝謝A大啊! 剛剛小弟我又重新上我內文的urls 08/09 09:10
→ x9060000456: 發現同個網址有兩種呈現方式(詳細和清單), 如下圖 08/09 09:11
→ x9060000456: 昨天主要爬第一張圖, 結果完全不能爬 08/09 09:13
→ x9060000456: 今早爬第二張圖的內容就可以了! 兩張圖的css內容不一 08/09 09:18
→ x9060000456: 樣, 但urls是同一個! 08/09 09:18
→ x9060000456: 但第一張圖的表格還是爬不出來 08/09 09:24
→ LinNine: 清單裡面有table,但是詳細列表裡面沒有(改一下selector 08/09 21:46
→ LinNine: 試試看吧 08/09 21:46
> -------------------------------------------------------------------------- <
作者: LinNine (0-9) 看板: R_Language
標題: Re: [問題] 爬蟲表格問題
時間: Thu Aug 10 20:48:01 2017
檢查他切換『詳細』與『清單』的按鈕
會看到他在點擊『清單』的時候塞cookie --> $.cookie.set('ckACGSHOWTYPE','L')
所以你先塞cookie就可以爬到排行榜table了
library(rvest)
library(magrittr)
library(httr)
urls <- 'https://acg.gamer.com.tw/index.php?t=1&p=Android'
ranktableList <- html_session(urls, set_cookies('ckACGSHOWTYPE' = "L")) %>%
html_nodes(css = 'td:nth-child(1)') %>% html_text() %>% .[-1]
※ 引述《x9060000456 (你好)》之銘言:
: [軟體熟悉度]:
: 使用者(已經有用R 做過不少作品)
: [問題敘述]:
: 各位前輩大大大家好,
: 小弟我最近爬巴哈姆特的文章,
: 關於哈拉版和新聞都能夠爬,
: 但是到了爬排行榜時, 卻爬不出任何結果,
: 因此上板來求救~ 謝謝!
: [程式範例]:
: library(rvest)
: library(magrittr)
: library(httr)
: urls <- 'https://acg.gamer.com.tw/index.php?t=1&p=Android'
: ranktable <- urls %>% GET(encoding = 'UTF-8') %>% content %>%
: html_nodes(css = 'td:nth-child(1)') %>% html_text()
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.246.44.4
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1502369283.A.41D.html