看板 Statistics 關於我們 聯絡資訊
※ 引述《adu (^_^)》之銘言: : 之前沒有點出問題所在,還請版大原諒。 : 想請教版大的是,該用哪種分析方法才是適宜的? : 資料型態: : 1.離散 : 2.x軸為長度 : 3.y軸為速率 : 4.單筆資料中各個資料點間有相關性(已知)->基本上各點的資料,由解相關性的分程式得來 : 5.相關性會造成資料分佈以x軸為準,兩端低落,中間單or多峰 : 6.有多筆資料(多dimentions) : 原本的想法是用回歸,看各筆資料是否有某一種趨勢。 : 但由於各資料點不獨立,無法服從殘差iid的假設。 : ##資料->dimention. 資料點->單一資料中的各點 : 改用cluster analysis,又因各筆資料長度不相同 : 資料點的相關性又會造成分群時的困難。 : 請教版大們,在這樣的資料下 : 1.cluster analysis該麼樣去使用? : 2.是否有其他的建議分析方法? : 謝謝版大,還請版大們不吝指教:) 你可能要先考慮幾件事情 1.資料的每一點的絕對值重不重要?相鄰兩點的數值差重不重要? 如果你care的是值的話,那碰到一個明顯高或明顯低的數值也沒辦法,要不就是自成 一組,要不就要找個依據證明他是outlier,然後看看把他遮起來之後會跟誰比較像 反之,如果值不重要,兩點間是上升還是下降比較重要的話,可以考慮將下降持平上升 三種情況做個轉換map到-1,0,1這一類的數上再去做cluster 2.資料的起始點是平等的嗎?兩筆資料在同一點上是可以比較的嗎? 舉例來說,三筆資料 4 6 2 1 5 3 1 2 3 4 6 2 1 5 3 1 3 6 2 1 5 3 1 要定義成像或不像? 3.碰到兩個長度不一樣的資料時,你要怎麼決定他像不像? 舉例來說,兩筆的觀測值是 3 4 6 2 1 5 3 1 3 4 6 2 1 5 這個時候你是要接受他們像或是說他們不像? 如果是不像的話,一開始就可以把所有資料依據長度先分類起來 反之,如果是像的話,可能可以考慮在情況許可之下把所有資料都truncate到最短的 資料長度去做cluster,雖然這樣會失去被truncate掉的那些資料的information,但 是他可以幫助我們去做初步的分類。如果覺得可惜,可以在cluster完之後針對每一組 的資料再去看後面那些被truncate掉的值來做更細的分組。又或者如果你有什麼證據 可以去合理的預估未來的值的話,把短的加長也是一招,不過這一招的穩定度和合理 性應該會比用truncate的方法來得差,來得容易被人挑戰。 總的來說,要做分群的話就應該先把你的遊戲規則想好,最關鍵的點不外乎就是"相似" 這兩個字怎麼定義,你可以定義成歐式空間的距離或是相關係數或是任何符合你的要求 的判斷依據,只要定好遊戲規則,cluster就可以work了 btw既然資料前後有明顯的相關,或許時間序列的方法也可以納入考慮?不過這就不是我 熟悉的部分了。 以上是我目前的想法,提供你做個參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.72.191
adu:謝謝您! 我會嘗試往這個方向試試看:D!! 05/28 23:28