作者oldjojotenya (舊舅舅)
看板R_Language
標題[問題] 丟入htmlParse的東西
時間Fri Jan 30 21:39:06 2015
[問題類型]:
程式諮詢
[軟體熟悉度]:
使用者
[問題敘述]:
最近在學習網路爬蟲,看到網路上餵給htmlParse的內容的寫法不太一樣,
本人對於HTTP的基礎薄弱,有點不得其門而入的感覺,
想請教以下寫法的異同與使用時機的差別,謝謝!
1.
url<-"
http://xxx.html"
content<-htmlParse(url)
2.(有時候1.不順利的時候帶2.的式子就成功了不知道為何)
url<-getURL("
http://xxx.html")
content<-htmlParse(url)
3.(個人猜測以下這種寫法只能存取本地file?)
url<-"
http://xxx.html"
f<-file(url)
f_size<-file.info(url)$size
content<-readChar(f,f_size)
close(f)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 112.105.245.56
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1422625148.A.FB7.html
→ Wush978: 我沒有特別研究過curl這類網路工具。如果你可以提供網址 01/30 22:24
→ Wush978: 我可能比較容易了解。(目前我是猜可能和http 轉址有關) 01/30 22:25
推 kenshin528: 沒用過第一種寫法@@ 01/31 02:04
→ gsuper: 我都直接 strsplit(x,'<tr>') 硬幹 01/31 03:45
→ carl090105: 雖然可能跟內文沒什麼關係;不過推薦一下rvest這個套 01/31 12:58
→ carl090105: 件 01/31 12:58
→ oldjojotenya: 謝謝各位大大! 01/31 13:48