看板 Statistics 關於我們 聯絡資訊
※ 引述《gsuper (統計的巴比倫塔)》之銘言: : 我有兩個連續型數值的向量 , 都呈 Normal Distribution : ( Case Dis & Control Dis) : 這兩個 Dis 裡面的每個數字都代表一個人的總風險值 : 每個總風險值都是 50 個 OR 的連乘積 : --------------------------------------------------------- : 現在, : 我需要從 50 個 OR 裡面減少一些 OR (e.g. 50個OR -> 30個OR) : 但我希望 Case Dis 和 Control Dis 互相涵蓋的面積盡量要小一點 : --------------------------------------------------------- : 從基礎統計來看 : 最簡單的就是套用 two samples test : 像是 t test 之類的 : However... : 若我還額外想比較兩者的涵蓋面積 : 請問有人知道甚麼統計方法可以用的嗎? 提供一下我現在的想法 但不確定這樣的推論嚴不嚴謹 我也不知道這樣算不算是統計XD 首先根據目的 互相涵蓋的面積盡量小等同於兩個distribution的mean離得盡量遠 又因為case和control都是OR的連乘 所以mean應該都會落在正數(或第一象限,如果是多維) 假設case的mean是a control是b(不失一般性假設可以知道b>a) 利用簡單的代數運算可以得到 重疊面積小 = b-a 大 = b/a 大 =ORb1*...*ORb30/ORa1*...*ORa30 大 (ps.這邊怎麼從很多的樣本點轉到樣本平均需要想一下,現在只是個雛形) 然後取log之後上式就會變成一堆的log(OR)的加加減減 再來就可以轉成一個像是linear regression的form 然後要從50個OR篩成30個就看個別OR的係數的方向性和大小來篩 如果你有的是paired sample的話應該更容易作 (以上是假設OR之間沒有interaction) 到這邊都還是一個很粗的idea detail可能真的要紙筆寫下來才知道可不可以work 供你作個參考^^ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.243.4.112
gsuper:我本來想的是 [log(b) - log(a)]/var(a&b) 03/30 14:08
gsuper:最後才發現根本就是 unpaired t test 的公式 03/30 14:08
gsuper:你的想法好像是偏向將 50 個 OR 變成元件 03/30 14:09
gsuper:用特定的指標來評估對 Distribution 的左衝擊和右衝擊 03/30 14:09
gsuper:我也有設計類似的指標 , 不過逃不開武斷的 cut-off 值 03/30 14:10
gsuper:前面的文章有點沒講清楚 , 應該是兩個 log normal Dis 03/30 14:11
gsuper:不過 "b-a 大 = b/a 大" 這個好像可以試試看 , W大謝啦 03/30 14:15