※ 引述《pigfish3333 (豬瑜)》之銘言:
: 各位好,小弟最近要繪製統計資料時發現一些問題
: 不太確定原因,想請教一下大家,感謝
: 就是我有一組統計資料,X軸是時間的分布,Y軸是在這個時間點發生的次數
: 我有上萬個時間點,每個時間點的值都不同
: 但是如果把時間軸切成固定區間一組,則可以得到長條圖呈常態分佈
: 不過要把這組資料化成機率觀察跟常態分佈函數吻合情形時
: 卻有如何normalize的問題
: 這個是我找到的資料 http://ppt.cc/Pdg9
: 不過我不解的是,我得到的統計資料是離散的資料
: 為何在做normalization的時候,卻不能除以sum,而是要除以area
: 是因為有把統計資料分組的關係嗎?
: 不過像高中在求擲骰子機率的時候,卻是除以sum
: 例如兩顆骰子和為2的機率,分母則是除以總數
: 這跟我繪圖時的情況有何不同?不都是離散資料嗎?
: 我本來還以為除以sum跟除以area的normalization會相近
: 還有另外一個問題是,如果我今天區間切的非常細的時候
: 例如一個時間點一個區間,則我得到的分布就變成uniform了
: 這代表我切的區間大小也會影響我繪圖呈現的機率分布圖形嗎?
: 感覺很奇怪,麻煩懂這方面的高手幫我說明一下了,感恩!!
算 "機率" 當然是 次數 ÷sum(總次數);
但這和所引網址中所談的是兩件事.
一條曲線 y = f(x) 是 p.d.f. 的圖形, 其要求就是f(x)
非負, 而且 f(x) 在整個數線(或有效範圍之內)的積分為
1, 也就是曲線下總面積是 1.
而討論中談子的骰子的例子, 這是離散型的. 離散型本來
看的是 "機率質量", 也就是機率. 所以不管骰面點數是
{1,2,3,4,5,6} 或 {2,4,6,8,10,12}, 每一點都是 1/6.
但, 若要用連續型的去 "近似" 它, 也就是要把離散型的
"連續化", 於是,前者 1 變成 0.5-1.5, 2 變成 1.5-2.5,
以此類推. 而後者 2 變成 1-3, 4 變成 3-5, 以此類推.
而前者的機率被組距 1 除,得曲線高度仍是 1/6; 但後者
組距是 2, 機率 1/6 被組距 2 除, 機率密度也就是密度
曲線的高度是 (1/6)/2 = 1/12, 這樣曲線下面積才會是 1.
另一問題, 原始資料是個別(發生某種事的)時間點, 及該
時點發生次數. 按一家時間間隔分組並累計其次數. 然後
拋卻時間因素, 而看 "發生次數" 的分布?
設按某一間隔分組得到的次數是 X1,...,Xn, 再看這些
Xi 形成什麼樣的分布?
不知我以上理解有沒有錯?
假設我沒猜錯, 假設以較短時間分組得的資料是如上的
X(1),...,X(n). 而用 k 倍長度時間分組的是 Y1,...,Ym.
假設 n = km.
那麼, Yj's 與 Xi's 間的對應關係是
Y1 = X(1)+...+X(k);
Y2 = X(k+1)+...+X(2k);
:
:
Ym = X(n-k+1)+...+X(n).
假設時間不是影響發生次數或發生率的因素, 又假設 m,
n 都夠大, 使得從實際觀察資料得到的分布能呈現理論分
布的模樣. 那麼 Yj's 的分布應比 Xi's 的分布更 "趨中"
些, 這就是 "中央極限定理" 的精神所在. 如果 Xi 之間
是獨立的, 如果 k 夠大, 中央極限定理告訴我們: Yj's
的分布接近常態.
--
嗨! 你好! 祝事事如意, 天天 happy! 有統計問題? 歡迎光臨統計專業版! :)
成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區)
交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率)
盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話)
我們強調專業的統計方法、實務及學習討論, 只想要題解的就抱歉了!
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.223.192.157
※ 文章網址: http://www.ptt.cc/bbs/Math/M.1402305135.A.CBC.html