[問題] R爬蟲抓html的問題

作者grimmq427532 (Legend)

看板R_Language

標題[問題] R爬蟲抓html的問題

時間Wed Jul 13 10:28:38 2016

[問題類型]: 程式諮詢 [軟體熟悉度]: 使用者(已經有用R 做過不少作品) [問題敘述]: 昨天開始研究使用R爬蟲，從 celestialgod 大大的code開始起頭範例中大大抓的是BG版的文章內容，而我是想要抓八卦版的文章標題就好但發現paste完網址、read_html抓code之後再使用xml_find_all去抓title會有問題，其值為空 ( 顯示{xml_nodeset(0)} ) 往回追read_html，懷疑是不是html碼抓漏了，並沒有抓到title等項因為開原網站的html來看，在body的部分似乎和抓到的有出入不知道是不是這樣？還是其他地方有問題？因為對html不熟悉，如果理解有誤請見諒 [程式範例] 為了研究先只抓15220這一頁 paste(15220, '.html', sep='') %>% paste('https://www.ptt.cc/bbs/Gossiping/index', ., sep='') %>% xml2::read_html() %>% xml2::xml_find_all("//div[@class='title']/a[@href]") [環境敘述]: R version : 3.3.1 [關鍵字]: crawl xml2 read_html -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.240.101.43 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1468376923.A.D0A.html ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 12:00:13

推 clansoda: 你沒有通過18檢驗那一關 07/13 13:39

→ clansoda: 版上搜尋批踢踢可以找到解決方法 07/13 13:40

有看過這個部分，但現在輸入網址透過瀏覽器好像不會做18檢驗，而使用read_html要嗎？先研究看看，感謝！

推 clansoda: 我輸入的時候要，你這個問題我也碰過把cookie那邊 07/13 14:35

→ clansoda: 加上一點代碼就可以過關了。 07/13 14:35

已經解決，感謝！瀏覽器不會出現是因為cookie記錄下來了，我太蠢了... 開無痕式就會出現over18的驗證所以透過rvest紀錄cookie就OK了，參考 https://github.com/dspim/R_Crawler_HTTP/blob/master/http_request.Rmd ※ 編輯: grimmq427532 (123.240.101.43), 07/13/2016 15:14:35