作者cwshih (cwshih)
看板Statistics
標題[問題] 關於串檔及存活率分析
時間Sat Dec 27 23:25:55 2014
如果是跟統計軟體有關請重發文章。
如果跟論文有關也煩請您重發文章。
請詳述問題內容,以利板友幫忙解答,過短文章依板規處置,請注意。
是這樣的
目前在進行健保資料的研究
想把住院檔(dd檔)串門診檔(cd檔)及承保檔(id檔)
住院檔已經利用整合功能將同ID同次住院但申報多筆的資料整合
以整合過的住院檔串門診檔時
一直覺得串出來的不正確
因為
根據疾病特性
出院後應該會有多筆門診返診時間(至少半年要返診追蹤一次)
所以預期串出來的門診檔人數會比住院檔人數多
但是
我串出來之後
住院人數是幾筆門診人數就是幾筆(我是以ID進行兩表的資料合併)
想請問
1.如果住院檔只有一筆(也就是只住院一次)但門診有三筆
那串出來會如何呈現呢?
是像
(A)會出現空格
ID IN_DATE OPD_DATE
1245 20120101 20120601
20121201
20130601
還是像
(B)會把空格填滿
ID IN_DATE OPD_DATE
1245 20120101 20120601
1245 20120101 20121201
1245 20120101 20130601
因為我是選擇兩表皆提供觀察值
所以如果像A一樣的話
那我就會刪掉很多筆了.....
另外
想問一個存活率的問題
我手邊共有5年的資料
想知道第一年存活率和第三年存活率
應該怎樣去設定時間呢(或者是說應該如何去進行這樣的分析)
為什麼這麼問呢?
因為每個病人的開刀時間都不一樣
假設我的5年資料是20080101-20131231
有一個病人是20131205開刀
然後活著回家
可是這樣也不能算一年啊
又如果
有病人是20080625開刀
然後一直存活到20131231都沒有顯示死亡
那當然這個病人第三年依然存活
如果直接把全部的資料丟進去跑存活分析
似乎有點怪怪的
所以想請問大家
是否有比較好的做法
謝謝大家
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.228.181.141
※ 文章網址: http://www.ptt.cc/bbs/Statistics/M.1419693957.A.D7C.html
推 imaltar: 你是直接用dd檔串cd檔嗎 這樣id會是多對多併檔 12/27 23:35
→ imaltar: 合併資料要1對1或1對多 12/27 23:36
→ cwshih: 對不起,我沒看懂1對1或1對多..,所以我現在應該怎麼做呢? 12/27 23:51
→ cwshih: 我的確是直接用dd檔串cd檔 12/27 23:52
推 imaltar: dd檔一個id有好幾筆 cd檔一個id也有好幾筆 直接併就是多 12/27 23:57
→ imaltar: 對多, 這樣就會有誤 12/27 23:58
→ imaltar: 應該是先篩出疾病id檔, 這個檔一個id只會有一筆資料, 12/28 00:00
→ cwshih: 所以...我把住院檔的重覆ID刪掉,讓每筆ID都是一個,這樣去 12/28 00:01
→ imaltar: 再分別去串cd檔和dd檔, 這樣就會有正確的門診和住院次數 12/28 00:01
→ cwshih: 串嗎? 12/28 00:02
→ imaltar: 例如住院檔的第一筆ID, 可能就是因此疾病第一次住院紀錄 12/28 00:02
→ imaltar: 再分別併CD DD 12/28 00:03
→ cwshih: 所以,DD檔要做兩次嗎?第一次先找出因此病開刀的ID 12/28 00:06
→ cwshih: 然後山除重覆ID(因為可能一個人在五年內開兩次或三次) 12/28 00:07
→ cwshih: 然後用只有一筆ID的DD檔去串門診檔及承保檔 12/28 00:08
推 imaltar: 看你的定義, 是第一次的就納入, 還是兩次以上才是你的研 12/28 00:08
→ cwshih: 這樣做可行嗎? 12/28 00:09
→ imaltar: 究樣本, 總之就是要先抓出只有單筆資料的ID檔 再去串檔 12/28 00:09
→ cwshih: 了解,我去試試,謝謝你 12/28 00:11