作者west1996 (焦了六年變脆了)
看板Statistics
標題Re: [問題] 比較兩個常態分佈的Distance的統計方法
時間Tue Mar 29 23:31:18 2011
※ 引述《gsuper (統計的巴比倫塔)》之銘言:
: 我有兩個連續型數值的向量 , 都呈 Normal Distribution
: ( Case Dis & Control Dis)
: 這兩個 Dis 裡面的每個數字都代表一個人的總風險值
: 每個總風險值都是 50 個 OR 的連乘積
: ---------------------------------------------------------
: 現在,
: 我需要從 50 個 OR 裡面減少一些 OR (e.g. 50個OR -> 30個OR)
: 但我希望 Case Dis 和 Control Dis 互相涵蓋的面積盡量要小一點
: ---------------------------------------------------------
: 從基礎統計來看
: 最簡單的就是套用 two samples test
: 像是 t test 之類的
: However...
: 若我還額外想比較兩者的涵蓋面積
: 請問有人知道甚麼統計方法可以用的嗎?
提供一下我現在的想法
但不確定這樣的推論嚴不嚴謹
我也不知道這樣算不算是統計XD
首先根據目的
互相涵蓋的面積盡量小等同於兩個distribution的mean離得盡量遠
又因為case和control都是OR的連乘
所以mean應該都會落在正數(或第一象限,如果是多維)
假設case的mean是a control是b(不失一般性假設可以知道b>a)
利用簡單的代數運算可以得到
重疊面積小 = b-a 大 = b/a 大 =ORb1*...*ORb30/ORa1*...*ORa30 大
(ps.這邊怎麼從很多的樣本點轉到樣本平均需要想一下,現在只是個雛形)
然後取log之後上式就會變成一堆的log(OR)的加加減減
再來就可以轉成一個像是linear regression的form
然後要從50個OR篩成30個就看個別OR的係數的方向性和大小來篩
如果你有的是paired sample的話應該更容易作
(以上是假設OR之間沒有interaction)
到這邊都還是一個很粗的idea
detail可能真的要紙筆寫下來才知道可不可以work
供你作個參考^^
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 111.243.4.112
→ gsuper:我本來想的是 [log(b) - log(a)]/var(a&b) 03/30 14:08
→ gsuper:最後才發現根本就是 unpaired t test 的公式 03/30 14:08
→ gsuper:你的想法好像是偏向將 50 個 OR 變成元件 03/30 14:09
→ gsuper:用特定的指標來評估對 Distribution 的左衝擊和右衝擊 03/30 14:09
→ gsuper:我也有設計類似的指標 , 不過逃不開武斷的 cut-off 值 03/30 14:10
→ gsuper:前面的文章有點沒講清楚 , 應該是兩個 log normal Dis 03/30 14:11
推 gsuper:不過 "b-a 大 = b/a 大" 這個好像可以試試看 , W大謝啦 03/30 14:15