[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣

作者ianmon (伊恩㊣)

看板Gossiping

標題[問卦] DeepSeek 就只是仿造ChatGPT 還吹成這樣

時間Tue Jan 28 10:00:13 2025

剛看了DeepSeek R1原始文件 Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., ... & He, Y. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv preprint arXiv:2501.12948. 看完結論就是人家ChatGPT走啥路你就跟著走修正與增進一些演算法效率就媒體吹成一種全新中國人AI? 不就一個餵食中文資料庫靠部分監督冷啟動改善語言邏輯的半人智慧 R1效能只跟OpenAI-o1-1217差不多演算法上看不到明顯跳躍式進步靠大模型餵食資料增進準確率跟速度，就被媒體吹成幾十倍效率? 以下用NootbookLM讀出的時間軸給妳們參考早期：大型語言模型（LLMs）快速發展，朝向通用人工智慧（AGI）邁進。後訓練（post-training）被視為提升模型效能的重要環節，特別是在推理任務方面。 OpenAI 的 o1 系列模型首先透過增加「思維鏈」（Chain-of-Thought, CoT）推理過程的長度來提升效能。研究社群探索各種提升推理能力的方法，包括基於過程的獎勵模型、強化學習以及搜尋演算法。 DeepSeek-R1-Zero 的發展：DeepSeek-AI 團隊使用 DeepSeek-V3-Base 作為基礎模型。團隊採用群組相對策略優化（GRPO）作為強化學習框架。他們直接對基礎模型應用強化學習（RL），而沒有使用監督式微調（SFT）作為預備步驟。 DeepSeek-R1-Zero 在強化學習過程中自然地發展出許多強大且有趣的推理行為。在數千個 RL 步驟之後，DeepSeek-R1-Zero 在推理基準測試中表現優異。例如，在 AIME 2024 上，pass@1 分數從 15.6% 提升到 71.0%，若使用多數決投票，分數更提升至 86.7%，可與 OpenAI-o1-0912 的表現相媲美。 DeepSeek-R1-Zero 展現出自我驗證、反思和生成長 CoT 的能力，是研究社群的一大進展。然而，DeepSeek-R1-Zero 面臨可讀性差和語言混用的問題。 DeepSeek-R1 的發展：為了處理 DeepSeek-R1-Zero 的問題並進一步提升推理效能， DeepSeek-AI 團隊引入了 DeepSeek-R1。 DeepSeek-R1 結合了多階段訓練和「冷啟動」資料。首先，團隊收集數千筆冷啟動資料來微調 DeepSeek-V3-Base 模型。接著，像 DeepSeek-R1-Zero 一樣，執行以推理為導向的強化學習。在 RL 過程接近收斂時，透過在 RL 檢查點上使用拒絕取樣（rejection sampling）建立新的 SFT 資料，並結合 DeepSeek-V3 在寫作、事實問答和自我認知等領域的監督式資料。然後重新訓練 DeepSeek-V3-Base 模型。使用新資料微調後，該檢查點會經歷額外的強化學習過程，並考慮所有情境的提示。最終成果 DeepSeek-R1 在推理任務上的表現與 OpenAI-o1-1217 相當。模型蒸餾：DeepSeek-AI 團隊進一步探索將 DeepSeek-R1 的能力蒸餾到更小的模型中。他們使用 Qwen2.5-32B 作為基礎模型，發現直接從 DeepSeek-R1 蒸餾的效果比在它上面應用 RL 更好。這表示較大模型發現的推理模式對於提升推理能力至關重要。 DeepSeek-AI 開源了蒸餾後的 Qwen 和 Llama 系列模型。其中，蒸餾後的 14B 模型大幅超越最先進的開源 QwQ-32B-Preview，而蒸餾後的 32B 和 70B 模型在密集模型中創下了推理基準測試的新紀錄。評估： DeepSeek-R1 在 AIME 2024 上達到 79.8% 的 pass@1 分數，略微超越 OpenAI-o1-1217。在 MATH-500 上達到 97.3% 的高分，與 OpenAI-o1-1217 的表現相當，並大幅超越其他模型。 DeepSeek-R1 在程式碼競賽任務中展現了專家級別的能力，在 Codeforces 上獲得 2,029 Elo 評分，超越了 96.3% 的參賽者。 DeepSeek-R1 在 MMLU、MMLU-Pro 和 GPQA Diamond 等知識基準測試上表現出色，明顯超越 DeepSeek-V3。 DeepSeek-R1 在創意寫作、一般問答、編輯、摘要等各種任務中表現出色。在AlpacaEval 2.0 上達到 87.6% 的長度控制獲勝率，在 Are-naHard 上達到 92.3% 的獲勝率，展現其處理非考試導向查詢的能力。未來方向：DeepSeek-AI 團隊計劃進一步研究 DeepSeek-R1 在通用能力（如函數調用、多回合對話）、語言混合、提示工程和軟體工程任務上的改進。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 106.107.242.123 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738029616.A.533.html

→ bole: 游泳比賽也是一樣啊，每個人都做一樣的事情 42.75.55.203 01/28 10:00

→ boboking2: 就像鴻蒙一樣嘻嘻 36.237.156.79 01/28 10:01

→ bole: ，為什麼大家都要看？ 42.75.55.203 01/28 10:01

噓 stayawesome: https://i.imgur.com/jY9j0u3.jpg 36.238.150.208 01/28 10:01

推 chung1997: 先抄襲後超越誰不是這樣呢101.138.167.165 01/28 10:01

→ eban9154: 美國有能力從0到1 但中國更擅長1到100 101.10.1.182 01/28 10:01

推 aggressorX: 成本是別人的30/1 1.162.5.76 01/28 10:01

噓 kets: 這麼簡單你怎不作？ 219.70.24.112 01/28 10:01

→ pptsuck: 追著你後面跑成本少你9成..不可怕嗎 101.12.147.99 01/28 10:02

→ aggressorX: 壓低成本是最屌的事情 1.162.5.76 01/28 10:02

→ error405: 宣傳炒股發大財懂?220.136.197.172 01/28 10:02

→ aggressorX: 任何行業都一樣 1.162.5.76 01/28 10:02

噓 Ceferino: 成本上跳躍式進步你沒看到阿 123.193.242.14 01/28 10:03

→ neehowmo: 原神也是抄的但是人家賺爛了笑死 42.78.224.226 01/28 10:04

→ adk147852: 你跟美股說阿嘻嘻 220.142.30.68 01/28 10:05

→ locdan: 重點是不用高階晶片，一般人會用到 59.126.46.30 01/28 10:05

→ locdan: 的功能都有 59.126.46.30 01/28 10:06

推 mirce: 它的最大問題在於成本極小化你美國衝前面223.141.152.103 01/28 10:08

→ duxxlux: 站在巨人的肩膀，能突破晶片封鎖，大幅 223.140.238.26 01/28 10:08

→ duxxlux: 提升效能，就足以令人佩服 223.140.238.26 01/28 10:08

→ mirce: 投入的超高成本 ds可以馬上複製成本1/10223.141.152.103 01/28 10:08

→ mirce: 歐美的AI服務公司燒個10次都無法回本223.141.152.103 01/28 10:09

→ mirce: 只能倒閉223.141.152.103 01/28 10:09

→ taikouhncheu: ChatGPT O1要付費，Deepseek R1免 114.32.161.148 01/28 10:10

→ mirce: 修正1/30223.141.152.103 01/28 10:10

→ taikouhncheu: 費，請問美股是在跌什麼 114.32.161.148 01/28 10:10

→ TaiwanUp: 成果比較重要 39.12.112.81 01/28 10:10

→ gainsborough: 試了一下，本地它比llama反應快多了 59.126.70.191 01/28 10:12

→ gainsborough: 大概就是優化吧，就像晶圓製造不是 59.126.70.191 01/28 10:13

→ gainsborough: GG開創的，但GG持續優化並在這個過 59.126.70.191 01/28 10:13

→ gainsborough: 程降低成本壓低價格，所以amd要拆出 59.126.70.191 01/28 10:14

→ gainsborough: 格羅芳德，intel也被製造部分拖垮 59.126.70.191 01/28 10:14

→ gainsborough: 台灣人對GG也是很自豪甚至現在整天 59.126.70.191 01/28 10:15

→ gainsborough: 臭intel(i皇也確實欠臭) 59.126.70.191 01/28 10:16

推 lalamio: 這篇文大家都會po但為啥你po的比別人快 104.10.166.47 01/28 10:25

→ antiSOC: 要不你仿DS優化訓練一下 DPP會幫你造成 1.162.208.252 01/28 10:26

→ antiSOC: 神 1.162.208.252 01/28 10:26

→ ikaros5566: 這麼簡單怎不換你震撼老美一下 42.79.89.71 01/28 10:32

→ play0321: 打打看64天安門 49.216.51.87 01/28 10:34

→ parnshan: 去跟華爾街講阿 111.71.215.214 01/28 10:41

→ athome1: 你台灣連抄襲都不會..對岸連六待機都抄出 125.229.20.82 01/28 10:47

→ athome1: 來了你台灣整天只會炒台積電股票與詐騙 125.229.20.82 01/28 10:47

噓 hcwang1126: 他的重點是成本118.168.215.205 01/28 10:50

推 bishopc: 看到神貼切的比喻 O牌超跑要價500萬美金223.141.191.209 01/28 10:52

→ bishopc: 最高時速500公里 D牌陽春跑最高時速480223.141.191.209 01/28 10:52

→ bishopc: 公里但只要50萬美金你覺得哪牌好？223.141.191.209 01/28 10:52

噓 jackie0804: 會怕喔114.136.124.231 01/28 10:55

推 amury: 八卦五毛好氣喔 49.216.194.136 01/28 11:50

→ joke3547: 成果不一樣就是不一樣，別再鴕鳥了 42.73.61.209 01/28 12:34

→ joke3547: 青鳥進化成鴕鳥，看了真讓人難過 42.73.61.209 01/28 12:34