看板 Statistics 關於我們 聯絡資訊
根據yhliu版友的建議 我嘗試了下面三種方式來定義"取樣方式的好壞" 假設母體是以某種f分佈所產生的數值,可用 random generator 產生一組例子為: 1.5, 3.5, 4.5, 5.5, 5.7, 6.5, 6.8, 7.3, 7.9, 9.1 (共10組) 現在假設有某種取樣方法A:取得的樣本為: 1.5, 5.7, 6.8, 7.3, 9.1 (共五組) 則下面我使用三種方式來定義"取樣方式A的好壞" (1) 卡方檢定 2 n(q_i-p_i)^2 X = Σ --------------- 其中q_i, p_i 表示取樣或母體落在[i,1+1]的次數 p_i 2 X = n { [(0-1)^2/(1)] + [(0-1)^2/(1)] + [(1-1)^2/(1)] + [(1-2)^2/(2)] + [(1-2)^2/(2)] + [(1-2)^2/(2)] + [(1-1)^2/(1)] } 缺點: 1. 沒有辦法定義出一個適合的區間, 也就是沒辦法說明為何要定義區間為[i,1+1] 2. X^2 不是 介於 0~1的數值, 沒有一個絕對的上下界 (2) dissimillarity index = Σ|q_i - p_i|/2 其中q_i, p_i 表示取樣或母體落在[i,1+1]的機率 index = |0-1/10|/2 + |0-1/10|/2 + |1/5-1/10|/2 + |1/5-2/10|/2 + |1/5-2/10|/2 + |1/5-2/10|/2 + |1/5-1/10|/2 where 0 <= index <= 1 缺點: 1. 根據定義,dissimillarity index是比較兩筆相同數量的data之間的相異性, 所以此處,母體數量=10, 取樣數量=5,實在是不合適用此index (3) K-S 檢定 D = sup|ai-bi|*n^(1/2) 其中 ai是 樣本的 empircial distribution function bi是 母體的 cdf n 是 取樣的數目 sup { |0/5-0/10|, |0/5-0/10|, |0/5-0/10|, |0/5-2/10|, |1/5-3/10|, |2/5-5/10|, |3/5-7/10|, |4/5-9/10|, |4/5-9/10|, |5/5-10/10| } = 1/5 D = (1/5) * \sqrt(5) = 0.4472 查表可以得知 右尾機率 = 0.98 = Prob(取樣的分佈是f|H0 is true) (H0:母體跟取樣的分佈相似) 藉由此機率,可以定義出"取樣方式A的好壞" 且此值P 有特性 0 <= P <= 1 以上,是我最近這幾天翻了一些書所得到的結果,所以應該只有KS可以符合我的需求 但是 "取樣方式A的好壞" 應該是用 Prob(取樣的近似是f) 來表達比較合理 因此 我必須 另外計算 P(取樣的分佈是f|H0 is false) 的情況. 但是,我該如何計算 Prob(取樣的分佈是f|H0 is false) 的情況呢? -- E=MC^2 E:Empathy E:Economic E: ?? M:Mind         M:Multitude      M:Multimedia C:Courtesy     C:Communication C: ?? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.236.43 ※ 編輯: thomson 來自: 140.113.236.43 (10/23 13:56)