關於群集分析上遇到的問題,還請版大們不吝指教。
資料形式是速率(y),長度(x),有五筆資料。
目的是想要將速率分佈相類似的資料分群。
由於單筆資料中的速率間有相關性,不能用回歸。(殘差iid)
所以嘗試用群集分析,看這五筆資料是否能分群。
遇到的問題,出在資料長度不一。
速率一 二 三 四 五 六 七 八 九
403.03 383.16 4331.41 1122.84 246.43 259.29 . .
452.83 547.39 536.82 967.89 587.82 913.22 2659.91 862.05 838.28
322.58 299.14 396.47 423.51 2464.32 399.50 259.14 . .
504.70 571.56 1014.72 983.26 2859.38 617.23 449.85 . .
329.01 433.91 421.52 654.47 595.45 1539.88 747.47 . .
由於速率間的相關性
會讓單筆資料的速率分佈呈現"中間高峰,兩端較低"的情況
使用SPSS的cluster analysis中k-means設定兩群。
在取速率一跟二分群都還好,如果取到三,極端值4331.41就會讓資料1單獨分在一群
目的是想要將速率分佈相類似的資料分群
請問版大們對於這樣的資料有沒有甚麼建議?
還懇請版大們不吝指教
謝謝m(__ __)m
--
37m﹡
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 218.174.40.206