看板 Math 關於我們 聯絡資訊
※ 引述《pigfish3333 (豬瑜)》之銘言: : 各位好,小弟最近要繪製統計資料時發現一些問題 : 不太確定原因,想請教一下大家,感謝 : 就是我有一組統計資料,X軸是時間的分布,Y軸是在這個時間點發生的次數 : 我有上萬個時間點,每個時間點的值都不同 : 但是如果把時間軸切成固定區間一組,則可以得到長條圖呈常態分佈 : 不過要把這組資料化成機率觀察跟常態分佈函數吻合情形時 : 卻有如何normalize的問題 : 這個是我找到的資料 http://ppt.cc/Pdg9 : 不過我不解的是,我得到的統計資料是離散的資料 : 為何在做normalization的時候,卻不能除以sum,而是要除以area : 是因為有把統計資料分組的關係嗎? : 不過像高中在求擲骰子機率的時候,卻是除以sum : 例如兩顆骰子和為2的機率,分母則是除以總數 : 這跟我繪圖時的情況有何不同?不都是離散資料嗎? : 我本來還以為除以sum跟除以area的normalization會相近 : 還有另外一個問題是,如果我今天區間切的非常細的時候 : 例如一個時間點一個區間,則我得到的分布就變成uniform了 : 這代表我切的區間大小也會影響我繪圖呈現的機率分布圖形嗎? : 感覺很奇怪,麻煩懂這方面的高手幫我說明一下了,感恩!! 算 "機率" 當然是 次數 ÷sum(總次數); 但這和所引網址中所談的是兩件事. 一條曲線 y = f(x) 是 p.d.f. 的圖形, 其要求就是f(x) 非負, 而且 f(x) 在整個數線(或有效範圍之內)的積分為 1, 也就是曲線下總面積是 1. 而討論中談子的骰子的例子, 這是離散型的. 離散型本來 看的是 "機率質量", 也就是機率. 所以不管骰面點數是 {1,2,3,4,5,6} 或 {2,4,6,8,10,12}, 每一點都是 1/6. 但, 若要用連續型的去 "近似" 它, 也就是要把離散型的 "連續化", 於是,前者 1 變成 0.5-1.5, 2 變成 1.5-2.5, 以此類推. 而後者 2 變成 1-3, 4 變成 3-5, 以此類推. 而前者的機率被組距 1 除,得曲線高度仍是 1/6; 但後者 組距是 2, 機率 1/6 被組距 2 除, 機率密度也就是密度 曲線的高度是 (1/6)/2 = 1/12, 這樣曲線下面積才會是 1. 另一問題, 原始資料是個別(發生某種事的)時間點, 及該 時點發生次數. 按一家時間間隔分組並累計其次數. 然後 拋卻時間因素, 而看 "發生次數" 的分布? 設按某一間隔分組得到的次數是 X1,...,Xn, 再看這些 Xi 形成什麼樣的分布? 不知我以上理解有沒有錯? 假設我沒猜錯, 假設以較短時間分組得的資料是如上的 X(1),...,X(n). 而用 k 倍長度時間分組的是 Y1,...,Ym. 假設 n = km. 那麼, Yj's 與 Xi's 間的對應關係是 Y1 = X(1)+...+X(k); Y2 = X(k+1)+...+X(2k); : : Ym = X(n-k+1)+...+X(n). 假設時間不是影響發生次數或發生率的因素, 又假設 m, n 都夠大, 使得從實際觀察資料得到的分布能呈現理論分 布的模樣. 那麼 Yj's 的分布應比 Xi's 的分布更 "趨中" 些, 這就是 "中央極限定理" 的精神所在. 如果 Xi 之間 是獨立的, 如果 k 夠大, 中央極限定理告訴我們: Yj's 的分布接近常態. -- 嗨! 你好! 祝事事如意, 天天 happy! 有統計問題? 歡迎光臨統計專業版! :) 成大計中站 telnet://bbs.ncku.edu.tw Statistics (統計方法及學理討論區) 交大資訊次世代 telnet://bs2.twbbs.org Statistics (統計與機率) 盈月與繁星 telnet://ms.twbbs.org Statistics (統計:讓數字說話) 我們強調專業的統計方法、實務及學習討論, 只想要題解的就抱歉了! -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.223.192.157 ※ 文章網址: http://www.ptt.cc/bbs/Math/M.1402305135.A.CBC.html