看板 Python 關於我們 聯絡資訊
嗨大家好 我現在有約莫 2000 個 entity,每個 entity 都有自己的 features,例如: ”LeBron”:[”NBA” ,”籃球”,”美國人”] ”電風扇”:[”家電”,”機械”] ...之類 而我的目的是要讓 entity 分群,例如 LeBron 就會跟 Westbrook 分成一堆,電風扇就會跟吹風機分成一堆。 目前有兩個卡住的點 1.每個 entity 所帶的 features 長度不同,可能有些有 5,6 個 features 有些只有一個,這樣子是否有方法可以餵給模型? 2.每個 entity 的 features 不盡相同,即使他們表示同一事物,例如 A 球員被標 NBA , B 球員被標 國家籃球協會,我得怎麼讓模型知道 NBA = 國家籃球協會 這件事? 以上兩點,還請不吝告知關鍵字,讓我有個查詢方向,謝謝各位。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.150.206 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1602602531.A.17D.html
mirror0227: 李宏毅 10/14 00:29
mirror0227: 好啦認真回,自然語言處理 NLP 10/14 00:30
moodoa3583: 感謝回應,NLP 算是我比較陌生的領域,想問有沒有處理 10/14 00:46
moodoa3583: 類似問題的 repo 可以推薦給我呢?謝謝 10/14 00:46
mychiux413: NBA 籃球 還不是feature,你要先把他們train成embedd 10/14 11:57
mychiux413: ing向量,這樣每個詞都會是一個可能512的向量,那fea 10/14 11:57
mychiux413: ture尺寸就都一樣了 10/14 11:57
mychiux413: 關鍵字:embedding 10/14 11:58
tsoahans: 非NN做法:bag of words+LSA/LDA來抽entity的特徵再分群 10/14 14:02