作者iambakr (123)
看板R_Language
標題Re: [問題] Rvest 網路爬蟲問題
時間Tue Dec 31 01:26:04 2019
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
之前第一次po文是詢問爬單頁 n個商品的名稱, 價格與點擊進去的規格
這次能夠爬多個頁面(例如Page 1~7),把全部的內容都匯進 data frame
但是我覺得我的寫法有點土法煉鋼
所以想請前輩不吝指教,針對我的code給建議
但目前我有碰到以下幾個問題,想請前輩幫忙
Q1: 這個程式碼用了兩次 for loop,效能多少會受到影響。
想請問有另外比較簡潔且效能佳的寫法嗎? ex: lapply?
Q2: 我想把 data frame產出 Excel rawdata,把每週爬的新內容接在上周舊內容的
下一行開始,請問要怎麼設定?
謝謝各位
[程式範例]:
https://ideone.com/zRJUTp
Note:first_page =
https://bit.ly/2tfCDuC
[環境敘述]:
R version 3.6.2 (2019-12-31)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 7 x64 (build 7601) Service Pack 1
[關鍵字]: Rvest, for loop
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.141.65.186 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1577726766.A.4CE.html
→ andrew43: 這二個for loop做不同工作,不知道怎麼影響了效率? 12/31 11:21
→ andrew43: 至於持續更新data,更簡單的方法是以純文字方式寫入 12/31 23:06
→ andrew43: 相同檔案。或是每次都先讀出舊檔再用rbind()加上新資料 12/31 23:08
→ andrew43: 你若使用write.table(),可以先試試它append這個參數。 12/31 23:10