作者tus (new life)
看板R_Language
標題[問題] Read.table Not ALL Rows
時間Sun Jan 28 13:15:48 2018
[問題類型]:
程式諮詢(我想用R 做某件事情,但是我不知道要怎麼用R 寫出來)
[問題敘述]:
用R讀text檔 但好像沒有全部的rows都讀進去 不知道原因是什麼
用EXCEL打開資料 可以看到約有1000000 entries (rows) 原始資料應該更多
因為這是EXCEl的上限 1048576
但用R read.table or read.csv 讀進去時 約只有700000筆資料 沒有任何錯誤訊息
目前是用 read.table(filename, quote = "", comment.char = "", fill = TRUE)
如果不加quote = "" 會出現EOF within quoted string
fill = TRUE 是因為好像有幾筆資料column length不同
幾筆資料可以在EXCEL中看到的 R沒讀進去的 找不到任何異樣
用count.fields 也是只有700000筆資料左右
sorry 沒辦法share資料 但還是想請問看看 有沒有什麼原因會造成這樣的情況
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 162.237.102.128
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1517116551.A.608.html
推 KKbiger: 改用套件data.table去讀試試看 01/28 13:39
→ tus: 謝謝 但沒辦法 資料放在加密電腦 沒有連上網路 01/28 13:42
→ tus: 要安裝package要經過層層關卡.... 01/28 13:43
※ 編輯: tus (162.237.102.128), 01/28/2018 13:51:28
→ Wush978: 不然先用readLines讀讀看,然後手動轉data.frame 01/28 13:54
→ tus: readLines 也是得到700000 elements左右 01/28 14:05
→ Wush978: 那試著用readBin直接讀raw vector近來 01/28 14:14
→ Wush978: 查一下readLines的下一行出了甚麼問題是不是有00 01/28 14:14
→ tus: 最後一行資料中有個怪符號 -> 在應該是人名的欄位中 01/28 14:29
→ tus: 感謝Wush! 01/28 14:39