Re: [問題] 比較兩個常態分佈的Distance的統計方法

作者west1996 (焦了六年變脆了)

看板Statistics

標題Re: [問題] 比較兩個常態分佈的Distance的統計方法

時間Tue Mar 29 23:31:18 2011

※ 引述《gsuper (統計的巴比倫塔)》之銘言： : 我有兩個連續型數值的向量 , 都呈 Normal Distribution : ( Case Dis & Control Dis) : 這兩個 Dis 裡面的每個數字都代表一個人的總風險值 : 每個總風險值都是 50 個 OR 的連乘積 : --------------------------------------------------------- : 現在, : 我需要從 50 個 OR 裡面減少一些 OR (e.g. 50個OR -> 30個OR) : 但我希望 Case Dis 和 Control Dis 互相涵蓋的面積盡量要小一點 : --------------------------------------------------------- : 從基礎統計來看 : 最簡單的就是套用 two samples test : 像是 t test 之類的 : However... : 若我還額外想比較兩者的涵蓋面積 : 請問有人知道甚麼統計方法可以用的嗎? 提供一下我現在的想法但不確定這樣的推論嚴不嚴謹我也不知道這樣算不算是統計XD 首先根據目的互相涵蓋的面積盡量小等同於兩個distribution的mean離得盡量遠又因為case和control都是OR的連乘所以mean應該都會落在正數(或第一象限，如果是多維) 假設case的mean是a control是b(不失一般性假設可以知道b>a) 利用簡單的代數運算可以得到重疊面積小 = b-a 大 = b/a 大 =ORb1*...*ORb30/ORa1*...*ORa30 大 (ps.這邊怎麼從很多的樣本點轉到樣本平均需要想一下，現在只是個雛形) 然後取log之後上式就會變成一堆的log(OR)的加加減減再來就可以轉成一個像是linear regression的form 然後要從50個OR篩成30個就看個別OR的係數的方向性和大小來篩如果你有的是paired sample的話應該更容易作 (以上是假設OR之間沒有interaction) 到這邊都還是一個很粗的idea detail可能真的要紙筆寫下來才知道可不可以work 供你作個參考^^ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 111.243.4.112

→ gsuper:我本來想的是 [log(b) - log(a)]/var(a&b) 03/30 14:08

→ gsuper:最後才發現根本就是 unpaired t test 的公式 03/30 14:08

→ gsuper:你的想法好像是偏向將 50 個 OR 變成元件 03/30 14:09

→ gsuper:用特定的指標來評估對 Distribution 的左衝擊和右衝擊 03/30 14:09

→ gsuper:我也有設計類似的指標 , 不過逃不開武斷的 cut-off 值 03/30 14:10

→ gsuper:前面的文章有點沒講清楚 , 應該是兩個 log normal Dis 03/30 14:11

推 gsuper:不過 "b-a 大 = b/a 大" 這個好像可以試試看 , W大謝啦 03/30 14:15