推 jhjhs33504: 大的模型還在訓練的樣子先釋出蒸餾的? 1.162.85.145 04/11 14:56
DeepSeek-V3-0324是完整的新非思考模型
很早就放出來了
一樣單台mac可跑量化版本
效果也是很強
※ 編輯: tetani (61.227.208.154 臺灣), 04/11/2025 14:57:55
推 k1k1832002: 感覺QWQ的進展造成的可能性更大一些(? 36.238.209.33 04/11 14:59
噓 strlen: 跑是跑得起來 但蠢到爆 錯誤百出 又慢死 101.10.6.105 04/11 15:03
推 jhjhs33504: 是說llama4啦 可能跑分跟開源是不同的 1.162.85.145 04/11 15:06
推 widec: 可是我用原版的DS跟其它廠架的DS來翻譯 118.232.6.177 04/11 15:37
→ widec: 原版的DS中文語感明顯較好耶 118.232.6.177 04/11 15:37