作者kinda (天天)
看板Gossiping
標題Re: [爆卦] 50美元訓練出媲美DeepSeek R1
時間Thu Feb 6 20:02:30 2025
※ 引述《JQK2 (ACE)》之銘言:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
李飛飛就是讓模型學習 -
考試技巧
1. 找已經上過課的學生教技巧:教
Qwen 32B 開源模型
2. 寫考古題:
59,000題中挑1,000題
3. 不會就跳過:
終止控制
4. 不要輕易作答:
延長控制
5. 練習考試時間分配:
動態計算分配
只教
考試技巧,訓練時間當然短
-
R1 寫的論文摘要:
這篇論文提出名為「s1」的測試階段擴展方法,透過兩種創新技術顯著提升語言模型的數
學推理能力。研究團隊在
Qwen2.5-32B-Instruct模型基礎上,僅使用1,000個精選樣本進
行監督微調,即達到超越OpenAI o1-preview模型的表現。
> 核心技術亮點:
1. s1K數據集三階段篩選法
結合「難度」(雙模型過濾易答題)、「多樣性」(50個數學子領域)與「質量」(格式
檢查+API錯誤剔除)三項指標,從
59,000個候選問題中精選1,000個高品質樣本。此方法
使模型訓練效率提升59倍,卻能達成相近準確率。
2. 預算強制調控機制
*
終止控制:當推理過程超出設定長度時,強制插入「Final Answer:」終止符
*
延長控制:偵測到過早結束時,自動追加「Wait」提示詞誘導模型二次檢查
此技術使AIME24競賽數學題準確率從50%提升至57%,且能線性擴展計算資源與表現的關係。
> 成本優化關鍵:
研究未採用蒸餾技術,而是透過:
* 極簡數據策略:1,000樣本僅需26分鐘(16×H100 GPU)完成微調
*
動態計算分配:測試階段依題目難度彈性調整運算資源,避免固定長度造成的資源浪費
* 開源生態整合:直接基於現有Qwen2.5模型改裝,省去從頭訓練成本
實驗結果顯示,該方法在MATH500和AIME24數學競賽題分別取得95%和57%準確率,較原始
模型提升27%。特別在「概率論博士資格考題」等專業領域,透過預算強制機制可誘導模
型自我修正錯誤,展現類似人類的
反覆驗證思維特徵。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738843354.A.C58.html
推 StylishTrade: 猜題喔 XD111.250.156.142 02/06 20:04
→ lastphil: 要刷題還得是國人 125.228.133.58 02/06 20:07
推 aa1477888: 重點在於它那1000題是人類挑的 223.139.68.111 02/06 20:07
→ aa1477888: 但答案是Gemini 2.0給的 223.139.68.111 02/06 20:07
→ aa1477888: 所以最終表現還不錯 223.139.68.111 02/06 20:07
→ aa1477888: 通義千問+Gemini 也是中美合作了XD 223.139.68.111 02/06 20:08
推 aa1477888: 李飛飛的方向是對的 但猜題本身就很難 223.139.68.111 02/06 20:11
→ kinda: 以後AI會不會寫共筆 122.116.34.251 02/06 20:12
→ kinda: 找學霸o3寫完共筆後,猜題100分 122.116.34.251 02/06 20:13
→ kinda: 以前AI都是裸考,之後都要上補習班了 122.116.34.251 02/06 20:16
推 selfhu: 所以現在是在比填鴨式囉? 114.137.49.232 02/06 20:50
→ shooding: 翻譯:三思而後行ok,思慮過重會損傷脾胃220.133.172.151 02/07 00:34
推 cerberi: 應考模式果然是訓練的最佳方法 36.225.194.242 02/07 06:00