看板 Math 關於我們 聯絡資訊
※ 引述《fefi (女王妃)》之銘言: : 底下 a, b, c, d 分別為整數。 : a, b 表在 c, d 群體下某特徵統計出來的個數,c, d 則是該群體的總個數為多少 : (通常 d >> c)。 : | C1 | C2 : -------+-------+------- : No. | a | b : -------+-------+------- : Total | c | d : c * (a + b) : E1 = --------------- : c + d : d * (a + b) : E2 = --------------- : c + d : / / a \ / b \ \ : G2 = 2* | a * ln| ------ | + b * ln| ------ | | : \ \ E1 / \ E2 / / : 想請問一下大家,針對 G2 算出來的結果,應該要如何解釋比較妥當呢? : 底下有幾個例子: : c = 11633 : d = 54963 : a = 303 b = 1651 G2 = -4381.798828 : a = 43 b = 179 G2 = -424.9684753 : a = 47 b = 4 G2 = 137.6563263 : a = 19 b = 1 G2 = 58.77076721 --- <1> G2 前兩個數據很像有算錯的樣子, 我程式跑出來分別是 5.3777 和 0.5416 ( 而且 G2 一定 ≧0 ) <2> 一般在分析數據時, G2 會扮演著 performance 的角色 也就是你根據背後所假設的 model, 訂出一套相對客觀的評比標準 來決定出你所假設的 model 適不適用於觀察到的 data 因此若您想解讀 (a,b) 對 G2 的影響 應該是直接看背後的數學 model 是如何建立起來 以及 G2 在這 model 下的考量為何 若只想由數據就探討 G2 背後的意思 猶如瞎子摸象,我個人會覺得意義不大 <3> 標題下的是 "log likelihood" 代表背後一定有考慮某個數學機率模型 而 G2 則是該模型下的一個中間產物 ------ 例如: 假設從 {C1,C2} 間隨機抽取一個特徵值 e 則定義一個隨機變數 X , 且機率 P(X=1) = u if e屬於C1 P(X=0) = 1-u if e屬於C2 t 1-t 亦即 P(X=t) = u *(1-u) 代表著你抽到 e 是屬於 C1 的機率是 u (對應 X=1) 屬於 C2 的機率是 1-u (對應 X=0) 若你抽樣了 n 次,且假設每次抽樣皆為 iid 並且有 a個數字屬於 C1 , b 個數字屬於 C2 ( Note that n=a+b) ( 這裡不用 random sequence 的概念,怕原po看不懂XD ) 則 log likelihood function of u 為: (推導省略) n g(u) := ln{ Π P( X = t_i) } i=1 = a*ln(u) + b*ln(1-u) ------ 我猜原po給的 G2 是 g(u) 做完 estimation 後的結果 ^ 再把 estimator u 帶回 g(u) (但是 u不滿足機率條件 for this example XD) <4> 若真的硬要瞎子摸象 可以上網 google 一下 Kullback–Leibler divergence (KL divergence) 定義 P(X=1) = a/(a+b) Q(X=1) = c/(c+d) P(X=0) = b/(a+b) Q(X=0) = d/(c+d) 1 P(X=i) 則 KL(P∥Q) = Σ P(X=i)*ln[ ─── ] i=0 Q(X=i) G2 = ─── 2(a+b) 簡單說, KL(P∥Q) 算出來的數值是在評比 機率分佈P 和 Q 像不像 數值越小代表越像、越大越不像 ( KL(P∥Q)=0 iff P=Q ) 如下表所示: ( c, d) = ( 11633, 54963) , Q(X=1) = 17.47% (a,b) │ P(X=1) │ KL(P∥Q) │ G2 ─────┼────┼─────┼─────── (303,1651) │ 15.51% │ 0.0014 │ 5.3777 (43,179) │ 19.37% │ 0.0012 │ 0.5416 (47,4) │ 92.16% │ 1.3481 │ 137.5050 (19,1) │ 95.00% │ 1.4686 │ 58.7457 可知 (43,179) 和母體群的分佈最像 (因為 KL值最小) (19,1) 最不像 最大 若以 information theory 的角度來看 G2 很像是在比較 觀察到的資料 和 背後的資料 "差異有多大" 所以 (43,179) 和母體群差異性最小 (因為 G2值最小) (47,4) 最大 最大 理由是 G2 大致上可寫成 取樣個數*(母體資料 - 取樣資料) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.211.139 ※ 編輯: doom8199 來自: 140.113.211.139 (04/23 16:00)