作者moodoa3583 (金牌台灣啤酒)
看板Python
標題[問題] Unsupervised Clustering 問題求解
時間Tue Oct 13 23:22:09 2020
嗨大家好
我現在有約莫 2000 個 entity,每個 entity 都有自己的 features,例如:
”LeBron”:[”NBA” ,”籃球”,”美國人”]
”電風扇”:[”家電”,”機械”]
...之類
而我的目的是要讓 entity 分群,例如 LeBron 就會跟 Westbrook 分成一堆,電風扇就會跟吹風機分成一堆。
目前有兩個卡住的點
1.每個 entity 所帶的 features 長度不同,可能有些有 5,6 個 features 有些只有一個,這樣子是否有方法可以餵給模型?
2.每個 entity 的 features 不盡相同,即使他們表示同一事物,例如 A 球員被標 NBA , B 球員被標 國家籃球協會,我得怎麼讓模型知道 NBA = 國家籃球協會 這件事?
以上兩點,還請不吝告知關鍵字,讓我有個查詢方向,謝謝各位。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.150.206 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1602602531.A.17D.html
→ mirror0227: 李宏毅 10/14 00:29
→ mirror0227: 好啦認真回,自然語言處理 NLP 10/14 00:30
→ moodoa3583: 感謝回應,NLP 算是我比較陌生的領域,想問有沒有處理 10/14 00:46
→ moodoa3583: 類似問題的 repo 可以推薦給我呢?謝謝 10/14 00:46
推 mychiux413: NBA 籃球 還不是feature,你要先把他們train成embedd 10/14 11:57
→ mychiux413: ing向量,這樣每個詞都會是一個可能512的向量,那fea 10/14 11:57
→ mychiux413: ture尺寸就都一樣了 10/14 11:57
→ mychiux413: 關鍵字:embedding 10/14 11:58
→ tsoahans: 非NN做法:bag of words+LSA/LDA來抽entity的特徵再分群 10/14 14:02