看板 DataScience 關於我們 聯絡資訊
大家好,最近在讀有關分群的章節 但是書上對於分群演算法總是只考慮數值變數 但是常常資料時有很多種尺度的 例如我可能有一筆資料記錄著一些人的訊息 可能有他的年紀,身高,體重,有沒有房子,開什麼車,種族,收入,任職的公司 等等變數 有沒有什麼好方法可以衡量兩筆資料之間的相似或相異度?一般來說是如何對這種資料做分群的呢? ----- Sent from JPTT on my Sony D6653. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.138.56.115 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1540376173.A.A05.html
yoyololicon: 多尺度是指多維ㄇ10/24 19:37
不是耶 像是例如年紀是interval尺度 開什麼車是nominal尺度之類的
celestialgod: t-SNE或是Gower’s distance10/24 19:58
感謝,剛剛有查到Gower跟k-prototype,t-SNE會去看看 ※ 編輯: jimmy12332 (223.138.56.115), 10/24/2018 20:56:17 ※ 編輯: jimmy12332 (223.138.56.115), 10/24/2018 20:58:20
AgileSeptor: 如果是k means分群,是需要做scaling的 10/25 01:42
AgileSeptor: 可以看此問答 https://bit.ly/2Je8Qq9 10/25 01:42
acctouhou: 直接做 z score ? 10/25 11:01