精華區beta CSSE 關於我們 聯絡資訊
※ 引述《jizzer5566 (陳雅姿噗滋)》之銘言: : 假設在一個二維的空間有許多點 : 每個點有三種屬性的其中一種 分別是A或B或C屬性 : 我想藉由點與點的距離來做分群 : 希望在同一群裡面都是相同屬性 : 假設我分10群 取10個中心點 : 某1中心點為B屬性 : 那該群內的每個點我都預測為B屬性 : 再以 猜對的點數/全部點數 算正確率 : 我想請問一下 : 如果將分群數提升為20群甚至30群後 : 正確率反而下降了 是合理的嗎 : 其原因可能有哪些? 分群的演算法看起來向k-means 所以我用k-means來分析 假設你資料在二維空間中 長這樣好了 AAAAAAAAA* B*BBBBBBB* C*CCCCCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC AAAAA'AAAA* B*BBB'BBBB* C*CCCC'CCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC AAAAAAAAA* B*BBBBBBB* C*CCCCCCCC 當K越大時 每個cluster的半徑越小 因此 在屬性交集的地方 ex:如a和b交接處 與b和c交接處 原本k很小時 群的半徑大 即使有些離群值離群中心(上圖的A' B' C')很遠 還是可以正確的分群 但當K變大時 會發現 有些ABC(上圖的A* B* C*)離它們的中心點很遠 反而這些離群值彼此比較近 互相結合成cluster 正確性就下降了 以上是小弟的一點看法 如果有錯請各位多多包含 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.230.186.124
jizzer5566:感謝你的講解 06/02 03:02
dpi:恩...有些outlier會組成一群導致準確率下降 06/04 16:04
dpi:因此還需要動態的去決定分群的個數會比較準確~~ 06/04 16:04