Re: [其他] Log-likelihood 計算結果的解釋

作者doom8199 (～口卡口卡　修～)

看板Math

標題Re: [其他] Log-likelihood 計算結果的解釋

時間Mon Apr 23 15:52:41 2012

※ 引述《fefi (女王妃)》之銘言： : 底下 a, b, c, d 分別為整數。 : a, b 表在 c, d 群體下某特徵統計出來的個數，c, d 則是該群體的總個數為多少 : （通常 d >> c）。 : | C1 | C2 : -------+-------+------- : No. | a | b : -------+-------+------- : Total | c | d : c * (a + b) : E1 = --------------- : c + d : d * (a + b) : E2 = --------------- : c + d : ／／ a ＼／ b ＼＼ : G2 = 2* ｜ a * ln｜ ------ ｜ + b * ln｜ ------ ｜｜ : ＼＼ E1 ／＼ E2 ／／ : 想請問一下大家，針對 G2 算出來的結果，應該要如何解釋比較妥當呢？ : 底下有幾個例子： : c = 11633 : d = 54963 : a = 303 b = 1651 G2 = -4381.798828 : a = 43 b = 179 G2 = -424.9684753 : a = 47 b = 4 G2 = 137.6563263 : a = 19 b = 1 G2 = 58.77076721 --- <1> G2 前兩個數據很像有算錯的樣子, 我程式跑出來分別是 5.3777 和 0.5416 ( 而且 G2 一定 ≧0 ) <2> 一般在分析數據時， G2 會扮演著 performance 的角色也就是你根據背後所假設的 model, 訂出一套相對客觀的評比標準來決定出你所假設的 model 適不適用於觀察到的 data 因此若您想解讀 (a,b) 對 G2 的影響應該是直接看背後的數學 model 是如何建立起來以及 G2 在這 model 下的考量為何若只想由數據就探討 G2 背後的意思猶如瞎子摸象，我個人會覺得意義不大 <3> 標題下的是 "log likelihood" 代表背後一定有考慮某個數學機率模型而 G2 則是該模型下的一個中間產物 ------ 例如: 假設從 {C1,C2} 間隨機抽取一個特徵值 e 則定義一個隨機變數 X , 且機率 P(X=1) = u if e屬於C1 P(X=0) = 1-u if e屬於C2 t 1-t 亦即 P(X=t) = u *(1-u) 代表著你抽到 e 是屬於 C1 的機率是 u (對應 X=1) 屬於 C2 的機率是 1-u (對應 X=0) 若你抽樣了 n 次，且假設每次抽樣皆為 iid 並且有 a個數字屬於 C1 , b 個數字屬於 C2 ( Note that n=a+b) ( 這裡不用 random sequence 的概念，怕原po看不懂XD ) 則 log likelihood function of u 為: (推導省略) n g(u) := ln{ Π P( X = t_i) } i=1 = a*ln(u) + b*ln(1-u) ------ 我猜原po給的 G2 是 g(u) 做完 estimation 後的結果 ^ 再把 estimator u 帶回 g(u) (但是 u不滿足機率條件 for this example XD) <4> 若真的硬要瞎子摸象可以上網 google 一下 Kullback–Leibler divergence (KL divergence) 定義 P(X=1) = a/(a+b) Q(X=1) = c/(c+d) P(X=0) = b/(a+b) Q(X=0) = d/(c+d) 1 P(X=i) 則 KL(P∥Q) = Σ P(X=i)*ln[ ─── ] i=0 Q(X=i) G2 = ─── 2(a+b) 簡單說， KL(P∥Q) 算出來的數值是在評比機率分佈P 和 Q 像不像數值越小代表越像、越大越不像 ( KL(P∥Q)=0 iff P=Q ) 如下表所示: ( c, d) = ( 11633, 54963) , Q(X=1) = 17.47% (a,b) │ P(X=1) │ KL(P∥Q) │ G2 ─────┼────┼─────┼─────── (303,1651) │ 15.51% │ 0.0014 │ 5.3777 (43,179) │ 19.37% │ 0.0012 │ 0.5416 (47,4) │ 92.16% │ 1.3481 │ 137.5050 (19,1) │ 95.00% │ 1.4686 │ 58.7457 可知 (43,179) 和母體群的分佈最像 (因為 KL值最小) (19,1) 最不像最大若以 information theory 的角度來看 G2 很像是在比較觀察到的資料和背後的資料 "差異有多大" 所以 (43,179) 和母體群差異性最小 (因為 G2值最小) (47,4) 最大最大理由是 G2 大致上可寫成取樣個數*(母體資料 - 取樣資料) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.211.139 ※ 編輯: doom8199 來自: 140.113.211.139 (04/23 16:00)