作者iambakr (123)
看板R_Language
標題[問題] 請問可以用 0/1 數值來做 kmeans嗎?
時間Mon Aug 1 22:08:07 2022
[問題類型]:
經驗諮詢(我想用R 連接某些資料庫,請問大家的經驗)
[軟體熟悉度]:
新手(沒寫過程式,R 是我的第一次)
[問題敘述]:
請簡略描述你所要做的事情,或是這個程式的目的
我有一份顧客問卷名單,除了一般常見的性別, 職業, 年齡外
其他是一系列例如:
- 你覺得我們產品哪些功能吸引你 (複選6個選項)
- 你從哪聽到我們的產品 (複選7個選項)
- 你買我們的產品主要目的為何 (單選6個選項)
等等單複選題
我現在想做的是找出我們家產品購買者的分群輪廓
請問我可以將這些問卷選項轉成0與數值後,去跑 kmeans嗎?
例如:
- Q1第一個選項有被選填的為1,沒有被選的為0
- Q3第四個選項有被選填的為1,沒有被選的為0
- 性別男生為1,女生為2,其他的為0
不知道我這樣表達得有沒有清楚..??
謝謝各位
[環境敘述]:
R version 4.2.0 (2022-04-22 ucrt)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows 10 x64 (build 19044)
Matrix products: default
locale:
[1] LC_COLLATE=Chinese (Traditional)_Taiwan.utf8 LC_CTYPE=Chinese
(Traditional)_Taiwan.utf8
[3] LC_MONETARY=Chinese (Traditional)_Taiwan.utf8
LC_NUMERIC=C
[5] LC_TIME=Chinese (Traditional)_Taiwan.utf8
[關鍵字]:
kmeans, 分群
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.37.144.135 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/R_Language/M.1659362889.A.C8B.html
※ 編輯: iambakr (114.37.144.135 臺灣), 08/01/2022 22:08:42
推 hohiyan: kmeans works with categorical data 08/02 03:55
→ andrew43: 你是指要把k項複選編碼成k個是非題,以及k項單選題編碼 08/02 17:40
→ andrew43: 成k題是非題嗎? 08/02 17:41
回andrew大,我想做的是類似這樣。需要做到這樣 for kmeans嗎?
https://bit.ly/3JqBFPc
推 lycantrope: 建議用knodes h大應該是叫你去google 08/02 21:41
但 kmeans 不是只能用數值型資料嗎?
K-medoids才是可以用類別型資料?
※ 編輯: iambakr (114.37.203.24 臺灣), 08/04/2022 01:32:52
→ andrew43: 看來我沒誤會。如果單純一個複選題這樣做,且所有受訪者 08/04 09:53
→ andrew43: 都有乖乖選你要求的項數(此指三項),我直覺這樣做 08/04 09:54
→ andrew43: 會是可行的。 08/04 09:54
→ andrew43: 但如果是單選題,或是題型多樣,可能要找找其它方法。 08/04 09:55
請問andrew大,為何單選的話就不推薦這種用法了!?
其實我的題目其實單選跟複選都有.....
推 hohiyan: kmeans可以處理 binary data,但能避免就避免比較好 08/05 07:50
請問h大還有哪種分群方式適合我這樣的資料方式呢?
例如: 階層式
※ 編輯: iambakr (114.37.220.76 臺灣), 08/08/2022 01:08:57
→ andrew43: 終究還是因為kmeans不好處理類別資料的距離與中心。 08/08 02:26