[爆卦] 50美元訓練出媲美DeepSeek R1

作者JQK2 (ACE)

看板Gossiping

標題[爆卦] 50美元訓練出媲美DeepSeek R1

時間Thu Feb 6 19:32:48 2025

李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 https://tinyurl.com/ydrtdbu8 https://arxiv.org/pdf/2501.19393 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提煉出來的。 https://i.imgur.com/kFg9GjU.jpeg 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1 。 S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。 S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力，甚至可以媲美 Reinforcement Learning（強化學習）。 OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？ S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法：核心思想：如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率！結果證明，這種方法比 OpenAI o1-preview 還要好！最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍然很強！此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.170.162 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738841571.A.D35.html

推 MorrisChang: 好 116.104.62.155 02/06 19:33

推 bernardROC: 多頂的筆電阿？_？ 112.78.91.151 02/06 19:33

推 william826: 一樓我爸爸 42.75.4.29 02/06 19:33

→ TexasFlood: 去墾丁大街吃個晚餐還不夠花 126.156.4.136 02/06 19:35

推 whitenoise: 硬體跟算力都人家的，當然花不到50美223.139.180.154 02/06 19:35

→ whitenoise: 元223.139.180.154 02/06 19:36

推 Panasonic: 蒸餾可以幹嘛 42.70.153.221 02/06 19:37

→ IDfor2010: https://reurl.cc/M6mDVv150.116.221.194 02/06 19:38

推 lipstick: 完了 36.224.122.86 02/06 19:39

→ YumingHuang: https://tinyurl.com/23lpyxoz 101.9.132.80 02/06 19:41

→ pooznn: 濃縮再濃縮提煉再提煉這帖飲落穩系A!!! 111.240.24.64 02/06 19:41

→ talrasha: 協尋唐鳳 61.224.121.133 02/06 19:41

推 wild2012: 就是同樣的問題多問幾遍的意思 220.137.70.241 02/06 19:42

噓 finhisky: 還敢笑中國卷啊美國自己更卷 112.78.95.112 02/06 19:50

推 aa1477888: 查了一下基礎模型其實是通義千問2.5 223.139.68.111 02/06 19:51

→ aa1477888: 只是拿Gemini 2.0蒸餾出來的答案微調 223.139.68.111 02/06 19:51

推 waakye: 再蒸餾一次說不定只要0.1美元111.253.133.167 02/06 19:51

→ fantasyth: 越蒸餾度數越高 174.243.49.229 02/06 19:56

推 vodkalime607: 用中國人對付中國人這很中國 1.162.245.230 02/06 20:00

推 xabcxabc0123: 重無到有才是厲害的…223.136.127.186 02/06 20:18

推 pupudice: 濃縮再濃縮提煉再提煉 161.29.89.237 02/06 20:26

推 joke3547: 有開源嗎？ 42.73.61.209 02/06 21:08

→ joke3547: 先開源，再看看中國能卷出啥來，嘻嘻 42.73.61.209 02/06 21:08

→ raku: 蒸餾法=利用別人訓練好的模型幫忙訓練自己223.138.206.185 02/07 00:13

→ raku: 的模型223.138.206.185 02/07 00:13

推 cocogg: XDDDDDDDDD 118.150.44.137 02/07 01:35

推 iou861007: 別人訓的模型啊== 1.171.96.49 02/07 01:49

→ DMM: 只要開源過幾天就是白菜價 49.216.192.175 02/07 08:30