※ 引述《nightmuse (peace)》之銘言:
: ※ 引述《Nzing (黑色神話)》之銘言:
: 所以我可以說fraction和percent的差別只在一個是以小數表示一個是以百分比表示嗎?
是
: 還是其實他們在運算過程中有不同?
: : density scale在表示資料分佈的probability density function
: : 以上例而言,選擇density scale,對應到y-axis為0.05
: : 其最大值是(1/組距),1的意思是:
: : discrete data表示Σ_i[第i組組距*第i組相對次數] = 1
: : continuous data表示整個distribution積分值為1
: 糟糕這兩行我看不懂他代表的意思是什麼 XD
囧,第一行我打錯了,應該Σ_i[第i組組距*第i組的density] = 1
第一行以下面那個例子來說,11-20歲間每個年齡機率都是0.05,
所以乘上組距10,等於相對次數0.5
每組都這樣處理,最後各組相對次數的總和會等於1,也就是100%
: 不過簡單來講就是下面那個例子的概念就是了。
: 我早上看density跟fraction值一樣大概是眼殘…… orz
取width=1和相同的組中點就會讓兩個值一樣
下面那個例子不好,因為discrete看起來沒什麼問題。
(以下解釋第二行,不看也無所謂...)
但遇到continuous data就不一樣
假設年齡這個時間是連續的,指定任何一個時間x歲,
p(x)就是density顯示的取值函數,隨機抽取一筆資料,剛好年齡為x歲的機率為
x
∫ p(x) dx = 0 for all x in R
x
如果不知道為什麼上面的個式子會等於0,
可以想像要抽到一筆資料,年齡剛好11年整一秒不差,
這機率很低(可以嚴格證明這機率等於0,但bbs上很難打XD)。
這時候只能指定一個範圍,例如說10≦x≦20,
才有可能讓積分的取值大於0,也就是x出現在這個範圍內的機率大於0。
為了把它畫成histogram,每條width=10
20
∫ p(x) dx 就是10≦x≦20這組的相對次數 (就是第二行想講的東西)
10
在histogram的density scale上,
表示在10≦x≦20這區間內,取任意長度為1的區間,ex. 11.2≦x≦12.2
即估計年齡出現在這區間內機率為(相對次數/10)。
當然,可以看出(一般而言)原始組距愈小(上例組距為10),
估計特定區間的機率愈接近真實狀況。
到後面用一堆連續的機率分配做區間估計或建模時,理解這個會比較方便。
: : (可以注意一下對連續和離散資料,stata取組中點的方式不一樣,
: : 但可以手動設定width和lower limit/minimum讓兩者輸出相同的結果。)
: : 以上例而言,可以宣稱:隨機選取一筆資料(即每筆資料抽中機率皆相等),
: : 該筆資料年齡為11歲的機率為0.05
: : 為12歲的機率為0.05
: : ....
: : 為20歲的機率為0.05
: : 在11-15歲的機率為0.05*5=0.25 (以上假設年齡為discrete)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.252.222
※ 編輯: Nzing 來自: 140.112.252.222 (11/03 09:27)