Re: [問題] 群集分析(cluster analysis)上碰到的問題

作者west1996 (焦了六年變脆了)

看板Statistics

標題Re: [問題] 群集分析(cluster analysis)上碰到的問題

時間Thu May 28 13:01:20 2009

※ 引述《adu (^_^)》之銘言： : 之前沒有點出問題所在，還請版大原諒。 : 想請教版大的是，該用哪種分析方法才是適宜的？ : 資料型態： : 1.離散 : 2.x軸為長度 : 3.y軸為速率 : 4.單筆資料中各個資料點間有相關性(已知)->基本上各點的資料,由解相關性的分程式得來 : 5.相關性會造成資料分佈以x軸為準，兩端低落，中間單or多峰 : 6.有多筆資料(多dimentions) : 原本的想法是用回歸，看各筆資料是否有某一種趨勢。 : 但由於各資料點不獨立，無法服從殘差iid的假設。 : ##資料->dimention. 資料點->單一資料中的各點 : 改用cluster analysis，又因各筆資料長度不相同 : 資料點的相關性又會造成分群時的困難。 : 請教版大們，在這樣的資料下 : 1.cluster analysis該麼樣去使用？ : 2.是否有其他的建議分析方法？ : 謝謝版大，還請版大們不吝指教:) 你可能要先考慮幾件事情 1.資料的每一點的絕對值重不重要？相鄰兩點的數值差重不重要？如果你care的是值的話，那碰到一個明顯高或明顯低的數值也沒辦法，要不就是自成一組，要不就要找個依據證明他是outlier，然後看看把他遮起來之後會跟誰比較像反之，如果值不重要，兩點間是上升還是下降比較重要的話，可以考慮將下降持平上升三種情況做個轉換map到-1,0,1這一類的數上再去做cluster 2.資料的起始點是平等的嗎？兩筆資料在同一點上是可以比較的嗎？舉例來說，三筆資料 4 6 2 1 5 3 1 2 3 4 6 2 1 5 3 1 3 6 2 1 5 3 1 要定義成像或不像？ 3.碰到兩個長度不一樣的資料時，你要怎麼決定他像不像？舉例來說，兩筆的觀測值是 3 4 6 2 1 5 3 1 3 4 6 2 1 5 這個時候你是要接受他們像或是說他們不像？如果是不像的話，一開始就可以把所有資料依據長度先分類起來反之，如果是像的話，可能可以考慮在情況許可之下把所有資料都truncate到最短的資料長度去做cluster，雖然這樣會失去被truncate掉的那些資料的information，但是他可以幫助我們去做初步的分類。如果覺得可惜，可以在cluster完之後針對每一組的資料再去看後面那些被truncate掉的值來做更細的分組。又或者如果你有什麼證據可以去合理的預估未來的值的話，把短的加長也是一招，不過這一招的穩定度和合理性應該會比用truncate的方法來得差，來得容易被人挑戰。總的來說，要做分群的話就應該先把你的遊戲規則想好，最關鍵的點不外乎就是"相似" 這兩個字怎麼定義，你可以定義成歐式空間的距離或是相關係數或是任何符合你的要求的判斷依據，只要定好遊戲規則，cluster就可以work了 btw既然資料前後有明顯的相關，或許時間序列的方法也可以納入考慮？不過這就不是我熟悉的部分了。以上是我目前的想法，提供你做個參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.72.191

推 adu:謝謝您！我會嘗試往這個方向試試看:D!! 05/28 23:28