[問題] 缺少資料時的likelihood function

作者iphone2003 (307)

看板Statistics

標題[問題] 缺少資料時的likelihood function

時間Wed Aug 26 18:33:21 2020

如果是跟統計軟體有關請重發文章，使用程式做為分類。統計軟體，如SPSS, AMOS, SAS, R, STATA, Eviews，請都使用程式做為分類請詳述問題內容，以利板友幫忙解答，過短文章依板規處置，請注意。為避免版面混亂，請勿手動置底問題，善用E做檔案編輯這是看hogg數統(第7版)，EM演算法那一節時遇到的問題 https://i.imgur.com/hbha8dA.jpg https://i.imgur.com/HOYVtOR.jpg 圖中的6.6.1式我看了很久都不知道是怎麼來的我的理解是X和Z都有相同的pdf 所以6.6.2才會寫成這個樣子但是不知道為什麼6.6.1中，前面還會多乘 [1-F(a-theta)]^n2 另外一個問題是如果「X和Z都有相同的pdf」這個理解沒錯那為什麼在第二張圖中，還會從6.6.13來得出Z的pdf？那如果Z的pdf確實和X不同，而是像第二張圖寫的：f(z-theta) / [1-F(a-theta)] 那為什麼6.6.2的likelihood又會寫成這樣？我覺得我好像連第一段描述的內容都沒有很完全理解所以對於後面這些式子才會都搞不太清楚彼此的關係麻煩大家解惑了謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.67.176 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1598438003.A.27E.html ※ 編輯: iphone2003 (140.112.67.176 臺灣), 08/26/2020 18:34:07

→ Pieteacher: censor08/26 21:26

→ hsnuyi: 你知道有n2個z 他們都大於a 但不知確切數值08/26 22:32

→ yhliu: (11)式是 conditional likelihood, 也就是 n2 個 censored08/28 08:13

→ yhliu: data 的機率乘上 n1 個 observations 的聯合 p.d.f.,08/28 08:15

→ yhliu: (12) 式是假設的 complete likelihood, 也就是如果 n1+n208/28 08:16

→ yhliu: observations 都能觀測到, 其聯合 p.d.f.08/28 08:17

→ yhliu: EM-algorithm 是利用已觀測到的(n1個 x's 及 n2個censored)08/28 08:20

→ yhliu: 以 "平均法" 插補未觀測到的 z's. 再把這些插補資料代入08/28 08:22

→ yhliu: complete likelihood. 而文中是直接求 complete likelihood08/28 08:24

→ yhliu: 之對數的期望值, 整合前述兩步驟, 這就是 E-step.08/28 08:25

→ yhliu: 所以 Q 就是以插補的 z's 代入的 complete likelihood, 08/28 08:27

→ yhliu: 所以 M-step (maximum likelihood) 就是極大化 Q 的值.08/28 08:28

感謝大家的回覆，不過我還是沒有很懂首先是關於censored data 其實這是我第一次看到這個詞，查了一下之後的理解感覺是「有觀測但是不知道正確的值為何」而這些censored data (Z) 跟X是獨立的那我不太懂的地方是，11式的L(theta|x)為什麼會是conditional likelihood？ L(theta|x)看起來跟Z沒有關聯，為何會需要考慮Z的機率？另外一個問題是如果我前面對censored data的理解無誤，那Z本質上應該是跟X有一樣的pdf吧（？那麼第二張圖片的前兩行，文中提到的「Z1,....Zn2 are iid with the common pdf f(z-theta)/[1-F(a-theta)] 」感覺就有點奇怪？ ※ 編輯: iphone2003 (114.136.10.238 臺灣), 08/29/2020 03:53:15

→ yhliu: 把(11)稱 conditional likelihood 是我的錯. 08/30 18:11

→ yhliu: 由於 n2 個 z's 只知道 z_i > a, 因此只能由 P[Z_i>a;θ] 08/30 18:14

→ yhliu: 獲得 θ 的訊息. 所以由 observed data 給的 information 08/30 18:16

→ yhliu: 用 (11) 戌表示. 而如果不是 censored at a, 所有 z's 也被 08/30 18:17

→ yhliu: 完全觀測到, 這假想的, 完整的 likelihood 就是 (12) 式. 08/30 18:19

→ yhliu: 雖然 n2 個 z's 未被完整觀測到, 但卻知道它們大於 a, 這當08/30 18:21

→ yhliu: 然也攜帶了 θ 的 information, 因此不能直接把它們丟棄不08/30 18:23

→ yhliu: 用. 所以, 或者用 (11) 式進行統計推論, 或者如文中以 (12)08/30 18:25

→ yhliu: 戌為基礎進行 EM algorithm 對 θ 做估計.08/30 18:26

→ yhliu: Unconditionally, z_i's 和 x_j's 是 i.i.d., conditional 08/30 18:29

→ yhliu: on z_i>a,則 z_1,...,z_n2 是i.i.d. f(z_i-θ)/[1-F(a-θ)]08/30 18:31

→ yhliu: (13) 式就是 given observed data 時 z's 的聯合條件p.d.f.08/30 18:34

→ yhliu: 而由(13)式知此條件p.d.f.與諸 x's 無關, 只和 a 有關.08/30 18:36

→ yhliu: 而且(13)式明白顯示了 z_i's 在共同 censoring time a 之下 08/30 18:38

→ yhliu: 是 i.i.d. 的.08/30 18:38

了解了，這個說明有看比較懂了非常感謝！ ※ 編輯: iphone2003 (36.226.12.16 臺灣), 09/01/2020 02:38:02