作者west1996 (焦了六年變脆了)
看板Statistics
標題Re: [問題] 群集分析(cluster analysis)上碰到的問題
時間Thu May 28 02:16:11 2009
※ 引述《adu (^_^)》之銘言:
: 關於群集分析上遇到的問題,還請版大們不吝指教。
: 資料形式是速率(y),長度(x),有五筆資料。
: 目的是想要將速率分佈相類似的資料分群。
: 由於單筆資料中的速率間有相關性,不能用回歸。(殘差iid)
: 所以嘗試用群集分析,看這五筆資料是否能分群。
: 遇到的問題,出在資料長度不一。
: 速率一 二 三 四 五 六 七 八 九
: 403.03 383.16 4331.41 1122.84 246.43 259.29 . .
: 452.83 547.39 536.82 967.89 587.82 913.22 2659.91 862.05 838.28
: 322.58 299.14 396.47 423.51 2464.32 399.50 259.14 . .
: 504.70 571.56 1014.72 983.26 2859.38 617.23 449.85 . .
: 329.01 433.91 421.52 654.47 595.45 1539.88 747.47 . .
: 由於速率間的相關性
: 會讓單筆資料的速率分佈呈現"中間高峰,兩端較低"的情況
: 使用SPSS的cluster analysis中k-means設定兩群。
: 在取速率一跟二分群都還好,如果取到三,極端值4331.41就會讓資料1單獨分在一群
: 目的是想要將速率分佈相類似的資料分群
: 請問版大們對於這樣的資料有沒有甚麼建議?
: 還懇請版大們不吝指教
: 謝謝m(__ __)m
不太懂你想要分的是什麼
是想要把五筆資料分開還是要把36個速率值分開?
如果是前者的話接著要問同樣都是速率n的5個點可以比較嗎?是同一個時間點的資料嗎?
你所謂的速率分佈相似的定義是什麼
是指整條曲線畫起來像 還是在某一個時間點的值像?
不管答案是那個
只有五筆資料而已 實在看不出有做cluster的必要
真的要分 把5條curve畫出來肉眼看就可以分出來了吧
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 61.230.75.188
推 adu:感謝版大的回應:) 分佈相似是想將曲線像的分群 05/28 09:38
→ adu:五筆資料是測試的,全部資料有約有120筆,速率點各30點 05/28 09:39
→ adu:所以才會想用SPSS作,還請版大指教 05/28 09:39