看板 Gossiping 關於我們 聯絡資訊
※ 引述《app325 (艾波)》之銘言: : Deepseek 橫空出世 : 應該讓大家都嚇了一跳 : 程式碼是開源的 : 有高手看的出來訓練成本這麼低的原因是啥嗎? 目前的推測應該是跳過了訓練模型的部分 也就是說不是從0開始構築AI模型,而是用成熟的AI模型來訓練,避免掉很多無謂的試錯 或空轉,也就是之前新聞在說的「蒸餾技術」 AI 系統中的 「蒸餾技術」(Knowledge Distillation,知識蒸餾),是一種 模型壓縮 (Model Compression) 方法,主要用來讓較小的模型學習較大模型的知識,同時保持高 效的推理能力。這種技術能夠在減少計算成本的同時,保留較好的性能,特別適合資源受 限的設備(如手機、嵌入式設備等)。 ### 知識蒸餾的基本概念 1. 教師模型(Teacher Model) - 一個預先訓練好的大型 AI 模型,通常是性能較強但計算量較大的深度學習模型。 2. 學生模型(Student Model) - 一個較小的 AI 模型,它的目標是學習教師模型的知識,達到類似的預測效果,但 計算量更小、效率更高。 3. 蒸餾過程(Distillation Process) - 讓學生模型學習教師模型的 軟標籤(Soft Labels),即教師模型對數據的概率分 佈,而不僅僅是標準的硬標籤(Hard Labels)。 - 通常會引入一個 溫度參數(Temperature)來調整教師模型的輸出,使得學生模型 能更有效地學習隱含知識。 ### 知識蒸餾的應用 - 語音識別(如 Siri、Google Assistant) - 自然語言處理(如 BERT 蒸餾版 DistilBERT) - 圖像識別(如 MobileNet) - 推薦系統(如個性化推薦) 這種方法可以讓 AI 模型在保證準確度的前提下,變得更輕量、高效,適用於移動設備、 邊緣計算等場景。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.46.140.244 (泰國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1738224178.A.B87.html
neofire: 所以呢?中國崛起了?111.246.155.105 01/30 16:04
mamorui: 前面才一篇問OpenAI怎麼傻傻還在找 180.176.65.112 01/30 16:06
mamorui: 肯亞人tag資料 顆顆 180.176.65.112 01/30 16:06
sevenny: 簡單說就是抄作業 42.72.147.172 01/30 16:07
atlaswhz: 占OPEN AI的便宜,但微軟也很樂意,因為始 123.205.48.63 01/30 16:12
atlaswhz: 終都得用到open ai的大模型,橫豎都賺 123.205.48.63 01/30 16:12
erisiss0: 笑死,抄作業日本怎不抄,韓國不抄,美 122.100.112.57 01/30 16:17
erisiss0: 國不抄,俄羅斯不抄 122.100.112.57 01/30 16:17
erisiss0: 是真把天下人當白癡嘛,用抄的人家早就 122.100.112.57 01/30 16:18
erisiss0: 被掀翻了,還輪得到華而街地震嗎 122.100.112.57 01/30 16:18
ga544523: 不是都說開源了嗎 看一下訓練那段程式是 36.236.196.61 01/30 16:26
henry1234562: 還推測 人家有放出論文的 1.160.223.26 01/30 16:29
saltation: 這篇文章都像deeoserk或gpt生出來的 111.246.93.48 01/30 16:30
shokotan: 這篇肯定是AI寫出來的 太假了111.250.152.121 01/30 16:38
Amulet1: 論文上是說他是自己教自己 42.73.62.166 01/30 16:40
IDfor2010: 還有訓練品質 deepseek 運用大量的專家150.116.221.194 01/30 16:45
IDfor2010: 模型來訓練150.116.221.194 01/30 16:45
Leo4891: open ai又沒授權 其實就是偷竊 36.231.10.118 01/30 16:49
Malthael: 美國也說台灣偷美國的晶片業 57.140.96.19 01/30 16:50
gbman: 因為重點不在這邊阿!用抄的誰都會CC 61.70.186.58 01/30 19:28