Re: [問題] 網路爬蟲抓資料問題

作者jasonfghx (工人)

看板R_Language

標題Re: [問題] 網路爬蟲抓資料問題

時間Mon Jan 15 08:38:17 2018

[問題類型]: 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) [軟體熟悉度]: 入門(寫過其他程式，只是對語法不熟悉) [問題敘述]: http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_4960.djhtm 我想抓"所屬產業" 這四個字因為我用utf-8的網頁練習都沒問題但這個big5 的執行出來都是空的想請問是有什麼問題在裡面嗎 [程式範例]: library(plyr) library(dplyr) library(data.table) library(stringi) base_url <- "http://jsjustweb.jihsun.com.tw" url <- "http://jsjustweb.jihsun.com.tw/z/zc/zcj/zcj_" t_url <- paste0(url, i="4960.djhtm") doc1 <- read_html(t_url, encoding = "big5") xpath <- '//div[@id="SysJustIFRAMDIV"]/a' title <- xml_text(xml_find_all(doc1, xpath)) [關鍵字]: 網路爬蟲很感謝回復 ※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:21:59 ※ 編輯: jasonfghx (180.217.127.44), 01/15/2018 16:22:20

→ andrew43: 主要的原因是左上的目錄內容是javascript產生的。 01/15 18:07

→ jasonfghx: 所以說遇到這種網站是撈不到資料? 01/15 18:44

推 andrew43: 我不在行，但Google R fetch HTML generated by JavaSc 01/15 20:12

推 andrew43: ript 有看到不少解法。 01/15 20:12

→ jasonfghx: 謝謝 01/15 21:05