根據yhliu版友的建議 我嘗試了下面三種方式來定義"取樣方式的好壞"
假設母體是以某種f分佈所產生的數值,可用 random generator 產生一組例子為:
1.5, 3.5, 4.5, 5.5, 5.7, 6.5, 6.8, 7.3, 7.9, 9.1 (共10組)
現在假設有某種取樣方法A:取得的樣本為: 1.5, 5.7, 6.8, 7.3, 9.1 (共五組)
則下面我使用三種方式來定義"取樣方式A的好壞"
(1) 卡方檢定
2 n(q_i-p_i)^2
X = Σ --------------- 其中q_i, p_i 表示取樣或母體落在[i,1+1]的次數
p_i
2
X = n { [(0-1)^2/(1)] + [(0-1)^2/(1)] + [(1-1)^2/(1)] + [(1-2)^2/(2)] +
[(1-2)^2/(2)] + [(1-2)^2/(2)] + [(1-1)^2/(1)] }
缺點:
1. 沒有辦法定義出一個適合的區間, 也就是沒辦法說明為何要定義區間為[i,1+1]
2. X^2 不是 介於 0~1的數值, 沒有一個絕對的上下界
(2) dissimillarity index = Σ|q_i - p_i|/2
其中q_i, p_i 表示取樣或母體落在[i,1+1]的機率
index = |0-1/10|/2 + |0-1/10|/2 + |1/5-1/10|/2 + |1/5-2/10|/2 +
|1/5-2/10|/2 + |1/5-2/10|/2 + |1/5-1/10|/2
where 0 <= index <= 1
缺點:
1. 根據定義,dissimillarity index是比較兩筆相同數量的data之間的相異性,
所以此處,母體數量=10, 取樣數量=5,實在是不合適用此index
(3) K-S 檢定
D = sup|ai-bi|*n^(1/2)
其中 ai是 樣本的 empircial distribution function
bi是 母體的 cdf
n 是 取樣的數目
sup { |0/5-0/10|, |0/5-0/10|, |0/5-0/10|, |0/5-2/10|, |1/5-3/10|,
|2/5-5/10|, |3/5-7/10|, |4/5-9/10|, |4/5-9/10|, |5/5-10/10| }
= 1/5
D = (1/5) * \sqrt(5) = 0.4472
查表可以得知 右尾機率 = 0.98 = Prob(取樣的分佈是f|H0 is true)
(H0:母體跟取樣的分佈相似)
藉由此機率,可以定義出"取樣方式A的好壞" 且此值P 有特性 0 <= P <= 1
以上,是我最近這幾天翻了一些書所得到的結果,所以應該只有KS可以符合我的需求
但是 "取樣方式A的好壞" 應該是用 Prob(取樣的近似是f) 來表達比較合理
因此 我必須 另外計算 P(取樣的分佈是f|H0 is false) 的情況.
但是,我該如何計算 Prob(取樣的分佈是f|H0 is false) 的情況呢?
--
E=MC^2
E:Empathy E:Economic E: ??
M:Mind M:Multitude M:Multimedia
C:Courtesy C:Communication C: ??
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.236.43
※ 編輯: thomson 來自: 140.113.236.43 (10/23 13:56)
> -------------------------------------------------------------------------- <
發信人: yhliu.bbs@bbs.ncku.edu.tw (不務正業的老怪物), 看板: Statistics
標 題: Re: [統計] 相關係數的問題
發信站: 成大計中BBS (Sun Oct 23 20:10:55 2005)
轉信站: ptt!Group.NCTU!grouppost!Group.NCTU!nckubbs
※ 引述《thomson.bbs@ptt.cc (四年可以畢業嗎)》之銘言:
: 以上,是我最近這幾天翻了一些書所得到的結果,所以應該只有KS可以符合我的需求
本來不同指標就不能奢求適用所有情況和目的.
資料數小, 當然不適用需做分組的卡方或相異指數.
話說回來, 只是比較所謂 "樣本分布" 與 "群體分布" 的
差距來論 "取樣方式的好壞",是否合適? 從你最初的問題,
看不出是要比較 "取樣方式"; 而從這篇的敘述,也看不出
你的問題是否如你所述比較所謂 "樣本" 與 "群體" 的分
布差異即可.
: 但是我要怎麼定義 P(取樣的分佈是f|H0 is false) 的情況呢?
不知你在做甚麼, 無法回答.
--
統計專業版需要你! 不論你是統計高手或初學, 是統計專業或應用領域人才, 歡迎光臨!
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
批踢踢實業站 telnet://ptt.cc Statistics (統計學及統計軟體版)
--
㊣Origin:《 成大計中 BBS 站 》[bbs.ncku.edu.tw] 來源:[218-170-36-171.dynamic]
> -------------------------------------------------------------------------- <
作者: thomson (四年可以畢業嗎) 看板: Statistics
標題: Re: [統計] 相關係數的問題
時間: Tue Oct 25 16:58:30 2005
※ 引述《yhliu.bbs@bbs.ncku.edu.tw (不務正業的老怪物)》之銘言:
: ※ 引述《thomson.bbs@ptt.cc (四年可以畢業嗎)》之銘言:
: : 以上,是我最近這幾天翻了一些書所得到的結果,所以應該只有KS可以符合我的需求
: 本來不同指標就不能奢求適用所有情況和目的.
: 資料數小, 當然不適用需做分組的卡方或相異指數.
: 話說回來, 只是比較所謂 "樣本分布" 與 "群體分布" 的
: 差距來論 "取樣方式的好壞",是否合適? 從你最初的問題,
: 看不出是要比較 "取樣方式"; 而從這篇的敘述,也看不出
: 你的問題是否如你所述比較所謂 "樣本" 與 "群體" 的分
: 布差異即可.
: : 但是我要怎麼定義 P(取樣的分佈是f|H0 is false) 的情況呢?
: 不知你在做甚麼, 無法回答.
假設母體是以某種f分佈所產生的數值,可用 random generator 產生一組例子為:
1.5, 3.5, 4.5, 5.5, 5.7, 6.5, 6.8, 7.3, 7.9, 9.1 (共10組)
現在假設有某種取樣方法A:取得的樣本為: 1.5, 5.7, 6.8, 7.3, 9.1 (共五組)
現在假設有某種取樣方法B:取得的樣本為: 9.1, 7.9, 7.3, 6.8, 6.5 (共五組)
因為取樣方法B取得的樣本都是偏向6.5以上
而取樣方法A取得的樣本分佈比較接近母體
所以 結論 是 取樣方法A 好於 取樣方法B
我想要定義一種index (介於0~1),可以藉由index的大小,來決定方法的好與壞..
這就是我的問題了
--
一個普通的朋友不知道你父母的姓氏。
一個真正的朋友有他們的電話在通訊錄上。
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.236.43
> -------------------------------------------------------------------------- <
發信人: yhliu.bbs@bbs.wretch.cc (老怪物), 看板: Statistics
標 題: Re: [統計] 相關係數的問題
發信站: 無名小站 (Tue Oct 25 19:13:53 2005)
轉信站: ptt!Group.NCTU!grouppost!Group.NCTU!wretch
做統計如不考慮本質, 只從數據上做文章, 不過是玩弄數
字罷了!
比較抽樣不談抽樣程序的本質, 不談抽樣是否符合抽樣目
的, 不談抽樣是否隨機, 不談抽樣是否符合必要的獨立性,
純粹在所謂 "樣本分布" 上做比較, 我實在看不懂這樣的
研究是在做甚麼!
--
嗨! 你好! 祝事事如意, 天天 happy! :) 統計專業版, 需要你的支持! :)
無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
批踢踢實業站 telnet://ptt.twbbs.org Statistics (統計學及統計軟體版)
--
夫兵者不祥之器物或惡之故有道者不處君子居則貴左用兵則貴右兵者不祥之器非君子
之器不得已而用之恬淡為上勝而不美而美之者是樂殺人夫樂殺人者則不可得志於天下
矣吉事尚左凶事尚右偏將軍居左上將軍居右言以喪禮處之殺人之眾以哀悲泣之戰勝以
喪禮處之道常無名樸雖小天下莫能臣侯王若能守之萬物將自賓天地相合以降甘露民莫
之令而自均始制有名名亦既有夫亦將知止知止可以不殆譬道之在天 163.15.188.87海
> -------------------------------------------------------------------------- <
作者: whyso (www) 看板: Statistics
標題: Re: [統計] 相關係數的問題
時間: Wed Oct 26 10:18:13 2005
※ 引述《yhliu.bbs@bbs.cs.nctu.edu.tw ()》之銘言:
: 如果是比較兩條 p.d.f. 曲線, f(x) 與 g(x), 可考慮
: ∫(f(x)-g(x))^2 dx (*)
: 這是模仿 density estimation 中的 IMSE (integrated
: mean squared error) 準則的指標. IMSE 是
: ∫E[(f*(x)-f(x))^2] dx 其中 f*(x) 是 f(x) 的估計量
: 但前項指標 (*) 其實也是數學上的 Eculidean-norm 或
: 2-norm.
: 另一可考慮的拍標是 Kulback-Leibler divergence
: ∫ln(f(x)/g(x)) f(x) dx
: 其中對數在 information theory 習慣是取 2 為底,統計
: 上則習慣取自然對數.
如果原始資料是離散的數值,並不具備有像f(x)般的函數曲線,
那麼要如何使用KL divergence來衡量兩個數列的相似度呢?
例如,我有兩個數列分別是 A: 3,4,6,,9,10,22,16,17.. (共m個)
B: 7,9,25,21,13,17,... (共n個,且 m!=n)
謝謝 :)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.123.102.81
> -------------------------------------------------------------------------- <
發信人: yhliu.bbs@bbs.ncku.edu.tw (不務正業的老怪物), 看板: Statistics
標 題: Re: [統計] 相關係數的問題
發信站: 成大計中BBS (Wed Oct 26 11:20:19 2005)
轉信站: ptt!Group.NCTU!grouppost!Group.NCTU!nckubbs
※ 引述《whyso.bbs@ptt.cc (www)》之銘言:
: ※ 引述《yhliu.bbs@bbs.cs.nctu.edu.tw ()》之銘言:
: : 如果是比較兩條 p.d.f. 曲線, f(x) 與 g(x), 可考慮
: : ∫(f(x)-g(x))^2 dx (*)
: : 這是模仿 density estimation 中的 IMSE (integrated
: : mean squared error) 準則的指標. IMSE 是
: : ∫E[(f*(x)-f(x))^2] dx 其中 f*(x) 是 f(x) 的估計量
: : 但前項指標 (*) 其實也是數學上的 Eculidean-norm 或
: : 2-norm.
: : 另一可考慮的拍標是 Kulback-Leibler divergence
: : ∫ln(f(x)/g(x)) f(x) dx
: : 其中對數在 information theory 習慣是取 2 為底,統計
: : 上則習慣取自然對數.
: 如果原始資料是離散的數值,並不具備有像f(x)般的函數曲線,
: 那麼要如何使用KL divergence來衡量兩個數列的相似度呢?
: 例如,我有兩個數列分別是 A: 3,4,6,,9,10,22,16,17.. (共m個)
: B: 7,9,25,21,13,17,... (共n個,且 m!=n)
: 謝謝 :)
既非該指標假設情況, 為甚麼要用該指標?
若要用, 請先用密求曲線(函數)去描述資料.
請從最前面的討論開始看; 請參考密求何計的書籍或論文.
--
統計專業版需要你! 不論你是統計高手或初學, 是統計專業或應用領域人才, 歡迎光臨!
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
無名小站 telnet://wretch.twbbs.org Statistics (統計方法討論區)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
批踢踢實業站 telnet://ptt.cc Statistics (統計學及統計軟體版)
--
㊣Origin:《 成大計中 BBS 站 》[bbs.ncku.edu.tw] 來源:[140.116.52.117]