底下 a, b, c, d 分別為整數。
a, b 表在 c, d 群體下某特徵統計出來的個數,c, d 則是該群體的總個數為多少
(通常 d >> c)。
| C1 | C2
-------+-------+-------
No. | a | b
-------+-------+-------
Total | c | d
c * (a + b)
E1 = ---------------
c + d
d * (a + b)
E2 = ---------------
c + d
/ / a \ / b \ \
G2 = 2* | a * ln| ------ | + b * ln| ------ | |
\ \ E1 / \ E2 / /
想請問一下大家,針對 G2 算出來的結果,應該要如何解釋比較妥當呢?
底下有幾個例子:
c = 11633
d = 54963
a = 303 b = 1651 G2 = -4381.798828
a = 43 b = 179 G2 = -424.9684753
a = 47 b = 4 G2 = 137.6563263
a = 19 b = 1 G2 = 58.77076721
我自己的想法是從 G2 > 0, G2 < 0 來討論:
若 G2 為正,通常 a 會比 b 大,則表這個特徵在 C1 情況下較為顯著;若在 C2 情況下
,這個特徵應該要少用比較好。
若 G2 為負,則與上述情況相反。
我還有另一個想法是從特徵佔該群體%(a/c, b/d)去探討:
當 b/d 百分比大於 a/c 的時候,則 G2 為負,該特徵在 C2 情況下較為顯著,C1 情況
下應該要少用。
但這樣解釋的話,有些地方很奇怪:
a = 43 a/c = 0.369638085
b = 179 b/d = 0.32567364
G2 = -424.9684753
a = 11 a/c = 0.094558582
b = 45 b/d = 0.08187326
G2 = -105.8988571
跟我的想法有出入。
因為我是文組的,我很努力看了很多資料,但對自己的數學能力很沒信心,希望大家幫我
看一下我的解釋有沒有什麼問題。
如果可以的話,希望大家能多幫我補充一些方向,能怎麼分析這些數據比較好。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 31.172.30.4