看板 B95305XXX 關於我們 聯絡資訊
※ 引述《nightmuse (peace)》之銘言: : ※ 引述《Nzing (黑色神話)》之銘言: : 所以我可以說fraction和percent的差別只在一個是以小數表示一個是以百分比表示嗎? : 還是其實他們在運算過程中有不同? : : density scale在表示資料分佈的probability density function : : 以上例而言,選擇density scale,對應到y-axis為0.05 : : 其最大值是(1/組距),1的意思是: : : discrete data表示Σ_i[第i組組距*第i組相對次數] = 1 : : continuous data表示整個distribution積分值為1 : 糟糕這兩行我看不懂他代表的意思是什麼 XD 囧,第一行我打錯了,應該Σ_i[第i組組距*第i組的density] = 1 第一行以下面那個例子來說,11-20歲間每個年齡機率都是0.05, 所以乘上組距10,等於相對次數0.5 每組都這樣處理,最後各組相對次數的總和會等於1,也就是100% : 不過簡單來講就是下面那個例子的概念就是了。 : 我早上看density跟fraction值一樣大概是眼殘…… orz 取width=1和相同的組中點就會讓兩個值一樣 下面那個例子不好,因為discrete看起來沒什麼問題。 (以下解釋第二行,不看也無所謂...) 但遇到continuous data就不一樣 假設年齡這個時間是連續的,指定任何一個時間x歲, p(x)就是density顯示的取值函數,隨機抽取一筆資料,剛好年齡為x歲的機率為 x ∫ p(x) dx = 0 for all x in R x 如果不知道為什麼上面的個式子會等於0, 可以想像要抽到一筆資料,年齡剛好11年整一秒不差, 這機率很低(可以嚴格證明這機率等於0,但bbs上很難打XD)。 這時候只能指定一個範圍,例如說10≦x≦20, 才有可能讓積分的取值大於0,也就是x出現在這個範圍內的機率大於0。 為了把它畫成histogram,每條width=10 20 ∫ p(x) dx 就是10≦x≦20這組的相對次數 (就是第二行想講的東西) 10 在histogram的density scale上, 表示在10≦x≦20這區間內,取任意長度為1的區間,ex. 11.2≦x≦12.2 即估計年齡出現在這區間內機率為(相對次數/10)。 當然,可以看出(一般而言)原始組距愈小(上例組距為10), 估計特定區間的機率愈接近真實狀況。 到後面用一堆連續的機率分配做區間估計或建模時,理解這個會比較方便。 : : (可以注意一下對連續和離散資料,stata取組中點的方式不一樣, : : 但可以手動設定width和lower limit/minimum讓兩者輸出相同的結果。) : : 以上例而言,可以宣稱:隨機選取一筆資料(即每筆資料抽中機率皆相等), : : 該筆資料年齡為11歲的機率為0.05 : : 為12歲的機率為0.05 : : .... : : 為20歲的機率為0.05 : : 在11-15歲的機率為0.05*5=0.25 (以上假設年齡為discrete) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.252.222 ※ 編輯: Nzing 來自: 140.112.252.222 (11/03 09:27)