看板 R_Language 關於我們 聯絡資訊
問題是這樣子,前陣子套件httr似乎有經過一些改變, 似乎採用了比較新的套件xml2裡面的函數, 因此,再爬取PTT八卦版文章出現了錯誤, 無法再使用httr的指令set_cookie("over18"="1") 搭配xpathSApply來抓取八卦板index跟裡面的文章內容。 所以想從RCurl套件中做一個Post的動作, 從網路上看高手用Python可以很輕鬆的就解決, 可是自己GOOGLE卻找不到用R解決的辦法QQ 不懂cookie這種東西是如何運作? 要如何用R讓他運作? 一些關鍵字: RCurl cookiefile cookiejar postForm -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 134.208.23.155 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1458544213.A.B30.html
celestialgod: 我用GET + set_cookie一樣可以抓阿@@ 03/21 15:30
celestialgod: x是GET下來的物件,要文字就用content(x, "text") 03/21 15:39
celestialgod: 配xml2的話就用下面的指令 03/21 15:39
celestialgod: xml_find_all(content(x), 03/21 15:40
celestialgod: "//div[@id='main-content']") 03/21 15:40
celestialgod: 再%>% xml_text就可以抓整篇文章下來了 03/21 15:42
celestialgod: windows再搭配stri_conv轉成big5 03/21 15:42
celestialgod: #1MwjtX4d (R_Language) 03/21 15:43
celestialgod: 如果是要用XML就把content(x, "text")丟到htmlParse 03/21 15:45
wheado: 太神啦 我等等來試試看!! 謝謝大大 03/21 16:11
wheado: 我弄這個弄到好幾天都睡不好 QQ 03/21 16:11