看板 Gossiping 關於我們 聯絡資訊
http://i.imgur.com/mH1Zb10.jpg https://reurl.cc/Nxx6an 根據公司公告,DeepSeek-V3.1 採用 UE8M0 FP8 精度格式,這是一種 8 位元浮點數運算方式,可在降低記憶體佔用的同時提升運行效率,並已針對「即將推出的下一代國產晶片」進行設計。FP8 被視為新一代 AI 模型的關鍵資料處理格式,能在相同硬體條件下加速訓練與推理。 由於美國出口限制,中國企業難以取得 NVIDIA H20 等閹割版 GPU,因此 DeepSeek 也開始調整模型架構,以配合未來國產晶片的發展。 此次 V3.1 升級凸顯公司正推動 AI 模型與本土半導體的深度結合,以減少對美國技術的依賴,並鞏固中國在新興 AI 生態中的自主優勢。不過,公司並未透露支援的晶片型號或製造商。 此外,DeepSeek 表示,經過「思維鏈壓縮訓練」後,V3.1-Think 模型在各項任務的平均表現與 R1-0528 大致相當,但輸出 token 數減少 20% 至 50%,展現更高的運算效率。 想也知道下一代國產晶片不可能是輝達算卡 DS用行動事實回擊金融時報的造謠報導,舒服到爆 補個卦點,有人拆包開源的DS V3.1模型代碼,發現應該是沒有R2大模型了 未來就是R模型與V模型合而為一,不再區分 V3.1就是這半年DS訓練的成果,只是進步幅度不夠,梁文鋒不滿意,所以先釋出目前的成果給粉絲 DS下一步要抽換訓練的底層架構重新設計,所以需要時間,下一代大模型就讓他們慢慢處理吧 ----- Sent from JPTT on my Vivo V2227A. -- Gossiping 綜合 ◎[八卦] 本板沒有特定立場 PTT八卦板自創立以來,一直秉持著公正、中立的立場, 以一個自由且不受限制之資訊交流平台而自居, 從而廣受國內外人士好評愛戴。 是故,由眾多使用者推舉出任之板主, 自然需承襲八卦板的一貫作風:只問對錯,不問立場。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.76.197.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1755834427.A.7EE.html
wsdykssj: 思維鏈壓縮,看來他們也清楚0528思考到 60.251.46.49 08/22 11:52
wsdykssj: 走火入魔的問題 60.251.46.49 08/22 11:52
potionx: 所以什麼時候要出新模型? 111.240.78.12 08/22 11:53
yychiuchang: 你的光刻機呢?連個影子都沒看到223.137.221.235 08/22 11:59
atpx: 去輝達已經不可逆、誰知道美國哪天全封掉 223.136.86.182 08/22 12:17
atpx: 企業自己就會趨吉避凶不用等黨 223.136.86.182 08/22 12:18
s213092921: https://reurl.cc/pYYmlb 42.76.197.120 08/22 13:05
yychiuchang: 實驗室的東西,照你邏輯IBM早就進114.136.223.180 08/22 16:20
yychiuchang: 入以下了,笑爛114.136.223.180 08/22 16:20