看板 R_Language 關於我們 聯絡資訊
[問題類型]: 程式諮詢 [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 昨天開始研究使用R爬蟲,從 celestialgod 大大的code開始起頭 範例中大大抓的是BG版的文章內容,而我是想要抓八卦版的文章標題就好 但發現paste完網址、read_html抓code之後 再使用xml_find_all去抓title會有問題,其值為空 ( 顯示{xml_nodeset(0)} ) 往回追read_html,懷疑是不是html碼抓漏了,並沒有抓到title等項 因為開原網站的html來看,在body的部分似乎和抓到的有出入 不知道是不是這樣?還是其他地方有問題? 因為對html不熟悉,如果理解有誤請見諒 [程式範例] 為了研究先只抓15220這一頁 paste(15220, '.html', sep='') %>% paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>% xml2::read_html() %>% xml2::xml_find_all("//div[@class='title']/a[@href]") [環境敘述]: R version : 3.3.1 [關鍵字]: crawl xml2 read_html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.101.43 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1468376923.A.D0A.html ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13
clansoda: 你沒有通過18檢驗那一關 07/13 13:39
clansoda: 版上搜尋批踢踢可以找到解決方法 07/13 13:40
有看過這個部分,但現在輸入網址透過瀏覽器好像不會做18檢驗, 而使用read_html要嗎? 先研究看看,感謝!
clansoda: 我輸入的時候要,你這個問題我也碰過把cookie那邊 07/13 14:35
clansoda: 加上一點代碼就可以過關了。 07/13 14:35
已經解決,感謝! 瀏覽器不會出現是因為cookie記錄下來了,我太蠢了... 開無痕式就會出現over18的驗證 所以透過rvest紀錄cookie就OK了,參考 https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35