Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷

作者kinda (天天)

看板Stock

標題Re: [新聞] 成本低廉中國AI初創DeepSeek震撼矽谷

時間Mon Jan 27 18:55:59 2025

前文恕刪 : 據報導，DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月，就訓練出了一個6710億參 : 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3，用了1萬6384片更強的H100 : 顯示卡，花了54天。DeepSeek的訓練效率提升了11倍。這比法很不公平 12/6 Meta 免費放出蒸餾過的 llama 3.3 70B 很多項目效能接近llama 3.1 405B 12/27 Deepseek V3 公開看起來 deepseek V3 快速導入了新開源模型變強是因為Meta幫他訓練+蒸餾大模型中文強是因為蒸餾了阿里巴巴Qwen2.5模型訓練量少只是因為不用訓練大模型隨便搜一下專家系統 MoE 1994年就有論文(MIT) 蒸餾模型 2015年的論文(Google) 專家系統 + 蒸餾模型2022年有論文(Microsoft) 都不是什麼新東西新聞中跟gpt-4o和llama 3.1 405B比只是行銷手段如果跟llama 3.3 70B比兩者效能相當預測花費約少30% deepseek v3就只是優化/特化的小改版資料來源： DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B https://tinyurl.com/46b2anf7 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737975363.A.0B7.html

推 clecer : 我比較相信美國ai大神的說法 01/27 18:58

→ saisai34 : 相信是假的現在可以all in NV @n@a 01/27 19:09

→ pikaq : 中國立即超英趕美，打死我都不信。 01/27 19:48