[問題] 爬蟲抓取資料問題

作者ya32347844 (虛虛樂)

看板R_Language

標題[問題] 爬蟲抓取資料問題

時間Fri Mar 17 00:02:34 2017

[問題類型]:網路爬蟲 [軟體熟悉度]:入門 [問題敘述]: 我想要抓這個網頁的資料但不知道是不是Ｘpath寫錯了我到後來抓到的資料是ＮＵＬＬ懇請各位大神給予指教如果有需要補充的資訊也請不吝指出已經google過相關訊息用不同的package但結果相同所以才會覺得是不是一層一層的Tag 寫錯了 Update Code: myheader <- c( "User-Agent"="Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0_1 like Mac OS X; ja-jp) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A306 Safari/6531.22.7", "Accept"="text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language"="en-us", "Connection"="keep-alive", "Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7" ) #加上myheader d <- debugGatherer() get_url <- getURL(url, httpheader = myheader, debugfunction = d$update, verbose = T) get_url_parse = htmlTreeParse(get_url, encoding = "UTF-8", error=function(...){}, useInternalNodes = TRUE,trim=TRUE) cat(d$value()[3]) node<-getNodeSet(get_url_parse, "//div[@class='page-content-wrapper']") info<-sapply(node,xmlValue) info [程式範例]: library(XML) library(RCurl) url="https://www.eex.com/en/market-data/environmental-markets/spot-market/european-emission-allowances#!/2017/01/04" get_url = getURL(url,encoding = "UTF-8") #將url解析 get_url_parse = htmlParse(get_url, encoding = "UTF-8") tablehead <- xpathSApply(get_url_parse, "//div[@id='content']/section[@class='clearfix']/article[@id='market_data']/div[@id='content']/div/div/div/div",xmlValue) [環境敘述]: mac10.12.2 [關鍵字]: -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.131.182 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1489680159.A.038.html

→ celestialgod: 稍微看了一下這個不好爬XDD 03/17 00:25

→ celestialgod: 看了一下網站他好像有FTP可以下載資料 03/17 00:25

→ celestialgod: 登入找找相關資訊吧 03/17 00:25

→ celestialgod: 我後來再研究了一下這網站要把爬蟲假裝成 03/18 17:50

→ celestialgod: 瀏覽器行為去爬，需要加一些header即可 03/18 17:51

→ celestialgod: 關鍵字：keep-live connection 爬蟲 03/18 17:51

→ celestialgod: /a 03/18 17:51

→ ya32347844: 感謝！我先研究一下keep-live connection怎麼用 03/18 22:05

※ 編輯: ya32347844 (114.36.131.182), 03/18/2017 23:44:44

→ ya32347844: 更新文章的Code但發現好像還是不行ＱＱ這樣有偽裝到嗎 03/18 23:46