看板 DataScience 關於我們 聯絡資訊
各位板友好 小弟目前有一些客戶的瀏覽行為標籤,例如: '輕食' '農業' '退休' '連鎖咖啡' '連鎖速食餐廳' '遊戲' '遊樂園' '遊輪' 這種標籤,雖然已經是比較粗略的分類了,但整體還是有好幾百個 如果要人工手動去歸類成大類會非常費工 所以我想要用詞向量的方式進行集群,把相似的歸類在一起 不知道有什麼預訓練好的model可以算大量字詞的相似度 感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.180.58 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1596817153.A.FE0.html ※ 編輯: s3714443 (150.116.180.58 臺灣), 08/08/2020 00:20:07
st1009: 中文Bert? 08/08 07:47
min86615: 其實可以認真算算標記這個到底需要多久,有時候可能真的 08/08 08:17
min86615: 找不到符合你需求的支援還是得使用工人智慧QQ 08/08 08:17
min86615: 而且幾百個把分類定義清楚,先把明顯的大類分出來,再細 08/08 08:20
min86615: 劃分小類感覺一個禮拜也夠,不要怕很花時間有時候時間算 08/08 08:20
min86615: 出來的比你想像的少,加油 08/08 08:20
min86615: 之後只用一般的算法去做分類就可以,但如果你是因為上級 08/08 08:21
min86615: 需求要用到NLP我就沒辦法了 08/08 08:21
allen1985: 自己train一個word2vec model? 08/08 10:06
jigfopsda: Fasttext 有中文 pretrained,可以自己抓下來算距離 08/08 12:46
ruokcnn: 直接word2vec不就好了?? 08/08 17:02
gulaer: 用word2vec或BERT拿到embedding 再算cos similarity 就好 08/15 14:53
gulaer: 啦 08/15 14:53
luli0034: BERT直接算cosine similarity你會fail 09/04 12:47
luli0034: The construction of BERT makes it unsuitable for sem 09/04 12:47
luli0034: antic similarity search as well as for unsupervised 09/04 12:47
luli0034: tasks like clustering. 09/04 12:47
luli0034: 不過我不太清楚中文有什麼開源的任務來fine tune..XD 09/04 12:49
luli0034: 英文的話SBERT是利用NLI與Siamese network來讓bert的vec 09/04 12:50
luli0034: tor representation可以直接用cosine similarity來衡量 09/04 12:50
luli0034: 語意相似~ 09/04 12:50
luli0034: 我一開始也期待BERT能夠捕捉到”語意” 但是實驗看來他 09/04 12:53
luli0034: 的output並不是一個vector space的representation~ 09/04 12:53
yolanda1203: fasttext跟wiki都有pre-trained好的東西 10/16 21:58