推 st1009: 中文Bert? 08/08 07:47
推 min86615: 其實可以認真算算標記這個到底需要多久,有時候可能真的 08/08 08:17
→ min86615: 找不到符合你需求的支援還是得使用工人智慧QQ 08/08 08:17
→ min86615: 而且幾百個把分類定義清楚,先把明顯的大類分出來,再細 08/08 08:20
→ min86615: 劃分小類感覺一個禮拜也夠,不要怕很花時間有時候時間算 08/08 08:20
→ min86615: 出來的比你想像的少,加油 08/08 08:20
→ min86615: 之後只用一般的算法去做分類就可以,但如果你是因為上級 08/08 08:21
→ min86615: 需求要用到NLP我就沒辦法了 08/08 08:21
→ allen1985: 自己train一個word2vec model? 08/08 10:06
推 jigfopsda: Fasttext 有中文 pretrained,可以自己抓下來算距離 08/08 12:46
推 ruokcnn: 直接word2vec不就好了?? 08/08 17:02
推 gulaer: 用word2vec或BERT拿到embedding 再算cos similarity 就好 08/15 14:53
→ gulaer: 啦 08/15 14:53
推 luli0034: BERT直接算cosine similarity你會fail 09/04 12:47
→ luli0034: The construction of BERT makes it unsuitable for sem 09/04 12:47
→ luli0034: antic similarity search as well as for unsupervised 09/04 12:47
→ luli0034: tasks like clustering. 09/04 12:47
推 luli0034: 不過我不太清楚中文有什麼開源的任務來fine tune..XD 09/04 12:49
→ luli0034: 英文的話SBERT是利用NLI與Siamese network來讓bert的vec 09/04 12:50
→ luli0034: tor representation可以直接用cosine similarity來衡量 09/04 12:50
→ luli0034: 語意相似~ 09/04 12:50
推 luli0034: 我一開始也期待BERT能夠捕捉到”語意” 但是實驗看來他 09/04 12:53
→ luli0034: 的output並不是一個vector space的representation~ 09/04 12:53
推 yolanda1203: fasttext跟wiki都有pre-trained好的東西 10/16 21:58