Re: [問題]htmlParse

作者celestialgod (攸藍)

看板R_Language

標題Re: [問題]htmlParse

時間Mon May 4 12:53:10 2015

: [問題類型]: : 程式諮詢(我想用R 做某件事情，但是我不知道要怎麼用R 寫出來) : : [問題敘述]: : 1.請問htmlParse返回的結果是否有size限制? : 我用下面一段code htmlParse返回只有到[[288]],似乎沒有抓完? : 如果是size的限制有辦法解決嗎? 這我不知道，但是我用RCurl有抓到全部，直接htmlParse就失敗了： test_doc = getURL(URL,.encoding="big5") test = htmlParse(test_doc, encoding="big5") test["//tr"] %>% str() # List of 11655 test_doc = htmlParse(URL,encoding="big5") test = test_doc["//tr"] %>% str() # List of 288 : 2.我試著用readLines讀同樣的網址,但因沒有換行符號,所有的資料只存成一行, : 處裡這一類沒有換行符號的網址,有什麼好方法呢? readLines之後用gsub把你要斷行的地方放進去 EX: 我要把每一個開始或結束的tag後面都放置一個斷行，這個要用一些regular expression的知識 gsub("(</?[^>]*>)", "\\1\\\n", "<tr><td bgcolor=\"#FAFAD2\" colspan=\"7\"> 股票 </td></tr>") %>% sprintf("%s", .) %>% cat() output: <tr> <td bgcolor="#FAFAD2" colspan="7"> 股票 </td> </tr> -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.205.27.107 ※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1430715193.A.1AD.html ※ 編輯: celestialgod (123.205.27.107), 05/04/2015 13:10:06

推 sorder: 我用getURL抓出來是完整的,帶入htmlParse出來還是只有 05/05 01:42

→ sorder: 部分,這個結果和你看起來不一樣~奇怪~@@" 05/05 01:43

→ sorder: 謝謝你的回答,我再研究一下regular expression.^^ 05/05 01:45

→ celestialgod: 可能跟R版本有關，他應該是有修正 05/05 08:18

→ celestialgod: 我用最新版的3.2.0 05/05 08:19

推 sorder: 我也是跟你一樣的版本~^^ 05/05 23:55

→ celestialgod: 那我真的不知道問題了... 05/06 00:02

推 sorder: 沒關係,謝謝你的回答。 05/06 12:28