看板 R_Language 關於我們 聯絡資訊
[問題類型]: 程式諮詢 我想用R 分析健保資料,但是連要怎麼用R 讀資料都寫不出來 [軟體熟悉度]: 入門(寫過其他程式,只是對語法不熟悉) [問題敘述]: 老師丟了一筆健保教我用R試著分析 (老師自己是用SAS) 但我之前修過的課都沒有教得太難 大部分是社區型的小資料 健保資料是很大的一筆 .DAT檔案 內容超過 65萬筆資料,約 40個變項 目前上網找過,也看過一兩本R的書 但都沒有寫的很詳細 目前知道read.delim()可以讀進檔案,但是根本亂碼 XD 需要的幫助是希望高手們可以教教我怎麼可以讀這檔案 或是有沒有程式套件可用~ 以上,希望各位幫幫小妹了 [關鍵字]: 健保資料 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.192.51.110
obarisk:big5 utf8? 資料的分隔符號是? 關鍵字XD 03/05 20:39
ecstasym:請問資料的分隔符號要從哪裡可以知道呢? 03/05 21:03
gsuper:你的問題應該不是R , 是要先找軟體把 .dat 檔換成 .txt檔 03/05 21:04
ecstasym:http://ppt.cc/~3aa (資料用筆記本打開是長這樣的@@ 03/05 21:34
ecstasym:所以我需要的是宣告第幾個字元是哪個變數嗎?? 03/05 21:36
kokolotl:你要先知道每個位置代表啥意思 去找資料的codebook吧 03/05 22:19
diplazium:何不直接請老師給你CSV檔? 03/06 09:24
onionsteven:http://ppt.cc/Vsdp 03/06 11:37
braveht:請安裝RStudio,點右上角的import dataset... 03/06 19:13
kokolotl:這樣的資料型態我比較喜歡用stata來弄XD 03/06 19:51
obarisk:看不出來資料長怎樣 03/06 23:15
summitstudio:跟老師要codebook裡面有資料格式(健保資料是固定長度 03/07 17:28
summitstudio:而不是用分隔符號這點比較麻煩,有codebook才作得動 03/07 17:29
summitstudio:基本上一行(row)就是一個觀察值 然後用長度去切欄位 03/07 17:30
summitstudio:或者懶人解法就是跟老師要已經讀好的 SAS dataset xD 03/07 17:33
anovachen:substr() 03/11 15:34
各位好 我有譯碼簿了,這個健保資料是沒有分隔符號的 所以基本上應該是照SU大說的要用長度去分割它 所以我發現我的問題應該是不知道怎麼去分割,而且也不知道 read.delim()讀檔案是不是對的 >_< (老師的意思好像要我直接跑,而不是用轉其他格式的檔案跑) ※ 編輯: ecstasym 來自: 123.192.51.110 (03/22 17:09)
gsuper:#1HLjk2HI 參考一下我這篇筆記文 花個10天學一下資料處理 03/23 00:37
gsuper:資料處理本來就是分析中相當耗時的部分 不太可能一鍵解決 03/23 00:38