[問題] 中文 詞向量 相似度

作者s3714443 (metalheads)

看板DataScience

標題[問題] 中文詞向量相似度

時間Sat Aug 8 00:19:09 2020

各位板友好小弟目前有一些客戶的瀏覽行為標籤，例如： '輕食' '農業' '退休' '連鎖咖啡' '連鎖速食餐廳' '遊戲' '遊樂園' '遊輪' 這種標籤，雖然已經是比較粗略的分類了，但整體還是有好幾百個如果要人工手動去歸類成大類會非常費工所以我想要用詞向量的方式進行集群，把相似的歸類在一起不知道有什麼預訓練好的model可以算大量字詞的相似度感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.180.58 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1596817153.A.FE0.html ※ 編輯: s3714443 (150.116.180.58 臺灣), 08/08/2020 00:20:07

推 st1009: 中文Bert? 08/08 07:47

推 min86615: 其實可以認真算算標記這個到底需要多久，有時候可能真的 08/08 08:17

→ min86615: 找不到符合你需求的支援還是得使用工人智慧QQ 08/08 08:17

→ min86615: 而且幾百個把分類定義清楚，先把明顯的大類分出來，再細 08/08 08:20

→ min86615: 劃分小類感覺一個禮拜也夠，不要怕很花時間有時候時間算 08/08 08:20

→ min86615: 出來的比你想像的少，加油 08/08 08:20

→ min86615: 之後只用一般的算法去做分類就可以，但如果你是因為上級 08/08 08:21

→ min86615: 需求要用到NLP我就沒辦法了 08/08 08:21

→ allen1985: 自己train一個word2vec model? 08/08 10:06

推 jigfopsda: Fasttext 有中文 pretrained，可以自己抓下來算距離 08/08 12:46

推 ruokcnn: 直接word2vec不就好了？？ 08/08 17:02

推 gulaer: 用word2vec或BERT拿到embedding 再算cos similarity 就好 08/15 14:53

→ gulaer: 啦 08/15 14:53

推 luli0034: BERT直接算cosine similarity你會fail 09/04 12:47

→ luli0034: The construction of BERT makes it unsuitable for sem 09/04 12:47

→ luli0034: antic similarity search as well as for unsupervised 09/04 12:47

→ luli0034: tasks like clustering. 09/04 12:47

推 luli0034: 不過我不太清楚中文有什麼開源的任務來fine tune..XD 09/04 12:49

→ luli0034: 英文的話SBERT是利用NLI與Siamese network來讓bert的vec 09/04 12:50

→ luli0034: tor representation可以直接用cosine similarity來衡量 09/04 12:50

→ luli0034: 語意相似～ 09/04 12:50

推 luli0034: 我一開始也期待BERT能夠捕捉到”語意” 但是實驗看來他 09/04 12:53

→ luli0034: 的output並不是一個vector space的representation～ 09/04 12:53

推 yolanda1203: fasttext跟wiki都有pre-trained好的東西 10/16 21:58