作者flywin (村上式孤寂)
看板Statistics
標題Re: [問題] 雙峰分佈
時間Thu Feb 12 18:24:12 2009
※ 引述《pk9533 (dgh)》之銘言:
: 各位板友們好,
: 下數有幾個問題想請教眾板友:
: 請問雙峰分佈的pdf為何?
: 是否有有介紹此分布圖形的參考書籍呢?
: 若是眾多常態分布(但標準差不相同)的加減下, ex: A + B - C = D
: 是否有可能造成雙峰分佈? (D為雙峰分佈)
: 可否用蒙地卡羅模擬?若可以又需使用何種軟體?
: 以上是目前困擾的問題,謝謝您的回答!
最近在研究EM演算法 因此有用到雙峰分配這種東西
以下是小弟的一些看法 有錯歡迎大家指教 謝謝
原PO大問的東西應該是用到混合分配模型(mixture model)的概念
所謂的混合模型可大略解釋如下:
Mixture models: model the data by using a number of statistical
distributions.
也就是利用數個不同的分配(f_1(x)+f_2(x)+...f_N(x))去對資料作一個配適
也可以想成有一組樣本X_1,...X_N 是來自於f_1(x)+f_2(x)+...f_N(x)這個合成分配
而非來自於某單一分配
而混合模型可用數學定義如下:(以TEX指令打成 若覺得不方便看 請看下面連結 謝謝)
p(x)=sum_{i=1}^{N}w_{i}p(x|C_i)
代表此混合模型是由N個model(distribution or component)所組成
也就是說p(x|C_i),i=1,...,N. 皆代表一個機率分配
而w_{i}是一個權重參數 代表某一個觀測值x屬於第i個單獨分配的機率
下面連結是混合模型的一個簡單的例子
http://tinyurl.com/dy5g6b
圖形代表由兩個常態機率分配 (有相同標準差2及平均數分別為-4,4)
所合成的的mixture model
而下面連結為對應的機率函數圖(以matlab畫成)
http://tinyurl.com/bwbjqh
另外要提的是, 一般我們說常態的線性組合還是常態
指的應該是常態"隨機變數"的線性組合依舊服從常態
但mixture model是各個機率函數 直接相加
因此不見得是常態了
以上是小弟的心得 歡迎大家指教 謝謝^^
--
把簡單的事情考慮的很複雜 可以現新領域
把複雜的事情看的很簡單 可以發現新定律
http://herethere-queueing.blogspot.com/
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.108.146
→ bmka:謝謝分享 02/12 22:08
→ bmka:可不可以舉幾個mixture model 在實際上運用的例子 02/12 22:08
→ bmka:還有跟EM有什麼樣的關連?(為什麼要用到EM algorithm?) 02/12 22:09
→ flywin:bmka大 我是在作data mining的分群時用到的 02/12 23:26
→ flywin:mixed model裡的每一分配皆對應到一個cluster 02/12 23:28
→ flywin:而為了估計每一cluster(此時是一個分配)的參數 02/12 23:28
→ flywin:需用到EM演算法來做做估計 而估計的原理就最大概似法 02/12 23:29
→ flywin:因為一般的MLE 只能估計一般的分配 02/12 23:30
→ flywin:而在mixed model裡 並無法知道每一個觀測直是確切來自於 02/12 23:31
→ flywin:哪一個分配 因此無法算出概似機率 而EM可用來解決這類問題 02/12 23:33
→ flywin:而我有學弟是利用EM 針對MODEL有missing data的情況 02/12 23:36
→ flywin:作最大概似的估計 02/12 23:36
→ flywin:我手上的例子是data mining的例子 若bmka大有需要 02/12 23:40
→ flywin:我再整理給您 02/12 23:40
→ bmka:恩...其實EM主要是用來做missing data的inference 02/13 00:01
→ bmka:所以你只要點出來在mixture model 下的data那一部份是missing 02/13 00:02
→ bmka:就回答了我的問題了(and that's what you said above) 02/13 00:03
→ bmka:多給幾個實際上的例子, 可以幫助大家了解data structure 02/13 00:05
→ bmka:雖然我有點討厭做EM, 但是它跟一些統計方法有很有趣的關聯 02/13 00:06
→ bmka:比如像survival analysi裡的self-consistency algorithm 02/13 00:07
→ bmka:(and hence Kaplan-Meier estimator) 就是等同於做EM 02/13 00:08