推 adu:謝謝您! 我會嘗試往這個方向試試看:D!! 05/28 23:28
※ 引述《adu (^_^)》之銘言:
: 之前沒有點出問題所在,還請版大原諒。
: 想請教版大的是,該用哪種分析方法才是適宜的?
: 資料型態:
: 1.離散
: 2.x軸為長度
: 3.y軸為速率
: 4.單筆資料中各個資料點間有相關性(已知)->基本上各點的資料,由解相關性的分程式得來
: 5.相關性會造成資料分佈以x軸為準,兩端低落,中間單or多峰
: 6.有多筆資料(多dimentions)
: 原本的想法是用回歸,看各筆資料是否有某一種趨勢。
: 但由於各資料點不獨立,無法服從殘差iid的假設。
: ##資料->dimention. 資料點->單一資料中的各點
: 改用cluster analysis,又因各筆資料長度不相同
: 資料點的相關性又會造成分群時的困難。
: 請教版大們,在這樣的資料下
: 1.cluster analysis該麼樣去使用?
: 2.是否有其他的建議分析方法?
: 謝謝版大,還請版大們不吝指教:)
你可能要先考慮幾件事情
1.資料的每一點的絕對值重不重要?相鄰兩點的數值差重不重要?
如果你care的是值的話,那碰到一個明顯高或明顯低的數值也沒辦法,要不就是自成
一組,要不就要找個依據證明他是outlier,然後看看把他遮起來之後會跟誰比較像
反之,如果值不重要,兩點間是上升還是下降比較重要的話,可以考慮將下降持平上升
三種情況做個轉換map到-1,0,1這一類的數上再去做cluster
2.資料的起始點是平等的嗎?兩筆資料在同一點上是可以比較的嗎?
舉例來說,三筆資料 4 6 2 1 5 3 1 2
3 4 6 2 1 5 3 1
3 6 2 1 5 3 1
要定義成像或不像?
3.碰到兩個長度不一樣的資料時,你要怎麼決定他像不像?
舉例來說,兩筆的觀測值是 3 4 6 2 1 5 3 1
3 4 6 2 1 5
這個時候你是要接受他們像或是說他們不像?
如果是不像的話,一開始就可以把所有資料依據長度先分類起來
反之,如果是像的話,可能可以考慮在情況許可之下把所有資料都truncate到最短的
資料長度去做cluster,雖然這樣會失去被truncate掉的那些資料的information,但
是他可以幫助我們去做初步的分類。如果覺得可惜,可以在cluster完之後針對每一組
的資料再去看後面那些被truncate掉的值來做更細的分組。又或者如果你有什麼證據
可以去合理的預估未來的值的話,把短的加長也是一招,不過這一招的穩定度和合理
性應該會比用truncate的方法來得差,來得容易被人挑戰。
總的來說,要做分群的話就應該先把你的遊戲規則想好,最關鍵的點不外乎就是"相似"
這兩個字怎麼定義,你可以定義成歐式空間的距離或是相關係數或是任何符合你的要求
的判斷依據,只要定好遊戲規則,cluster就可以work了
btw既然資料前後有明顯的相關,或許時間序列的方法也可以納入考慮?不過這就不是我
熟悉的部分了。
以上是我目前的想法,提供你做個參考
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.72.191