推 fedona : 股版人看不懂英文 02/07 08:17
→ cafein : 讚 02/07 08:17
推 herculus6502: 反正這裏是股版 02/07 08:36
推 GOOGLEISGOD : 專業 02/07 08:42
推 AGODC : 這就如同酒精釀造工藝,一般不懂的人認知上它就是某 02/07 08:46
→ AGODC : 蒸餾原理,只是有加上一些前後加工的工序,本質上對 02/07 08:46
→ AGODC : 一般人來說用「蒸餾」這個辭最好理解啊,未來這種類 02/07 08:46
→ AGODC : 蒸餾或前後資料篩選再tune的東西會一籮筐,前面幾個 02/07 08:46
→ AGODC : 還分得出來差異,到後面出來幾百幾千個時,誰還分得 02/07 08:46
→ AGODC : 出來用哪個方法?反而叫蒸餾是一般人最好理解的 02/07 08:46
推 aaa80563 : 不然為什麼一堆-0.06的噴上天 02/07 08:48
推 maxangel : 台灣媒體就不讀書 當然不會認真寫 02/07 08:50
推 Laviathan : 蒸餾不一定是監督式學習,但微調是監督式學習,樓 02/07 08:50
→ Laviathan : 上怎麼可以說都一樣叫蒸餾 02/07 08:50
→ wr : 簡單來說 只要你能從六萬筆資料中找到那1000筆資料 02/07 08:51
→ wr : 你就可以弄出跟gemini很接近的能力 02/07 08:51
→ wr : 也就是說 如何找到那1000筆資料的技術應該可以賣錢 02/07 08:53
推 dani1992 : 按你描述是從Gemini蒸餾微調Qwen沒錯啊 02/07 08:54
→ wr : 至於訓練出來的東西 就隨便應用端去天馬行空了 02/07 08:54
推 gift1314520 : 笑不給他資料庫看他怎麼學習 02/07 08:58
推 LDPC : 大大 建議你自刪 這就是蒸餾。是你自己不懂 02/07 09:01
推 p122607 : 這也是蒸餾的一種… 02/07 09:05
噓 Lowpapa : 整篇誤導 02/07 09:06
推 laidawn : 推,看不懂 02/07 09:06
推 LDPC : 作者自己paper都說 1000題從gemini thinking distil 02/07 09:08
→ LDPC : l 02/07 09:08
→ LDPC : 這已經不是你第一次亂嗆 結果自己搞錯=_= 02/07 09:09
→ LDPC : paper 第一頁 右下方就講distilled from gemini thi 02/07 09:10
→ LDPC : nking experimental 02/07 09:10
推 ab4daa : 穩 02/07 09:12
推 kungwei : 專業給推 02/07 09:13
推 y800122155 : 貼出來騙人下車的啊 02/07 09:13
推 LDPC : 哪來專業..=_= 02/07 09:14
推 oopFoo : 必須推。s1來蹭r1的。s1論文根本就不實際,也不實用 02/07 09:27
推 oopFoo : s1這篇論文只是來騙篇數的。phd的悲哀。 02/07 09:32
→ emind : 論文主旨是test-time compute 也放在標題了。Ilya 02/07 09:40
→ emind : 在2024 Neurips 也講inference time compute. 02/07 09:40
→ emind : 宣傳成本什麼的很好笑 02/07 09:41
→ DrTech : 這篇論文的distilled意思,與前幾年大家在做transfo 02/07 10:14
→ DrTech : rmer模型時的蒸餾,完全不同意思。是違反學術常規定 02/07 10:14
→ DrTech : 義,自創的定義,意思是用Gemini 模型,生成新的訓 02/07 10:14
→ DrTech : 練資料。硬扯沒意義,論文實際上跑出來的分數就是大 02/07 10:14
→ DrTech : 輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫 02/07 10:14
→ DrTech : 。 02/07 10:14
推 Denny224 : 推一個 這才是認知中的學術研究 02/07 10:15
→ DrTech : 我對於研究成果沒有否定,但新聞媒體亂報也是事實。 02/07 10:16
→ DrTech : 蒸餾模型model distillation本來是模型權重數量壓縮 02/07 10:23
→ DrTech : 的一種技術。結果這篇文章用的蒸餾,意思是用模型生 02/07 10:23
→ DrTech : 成訓練用的文字資料,不是學術界正式的用語。所以目 02/07 10:23
→ DrTech : 前只能放在arxiv,連正式的學術審稿都沒過。 02/07 10:23
→ DrTech : 基底模型是Qwen2.5-32B,然後少量Gemini模型生成資 02/07 10:30
→ DrTech : 料微調參數,再怎麼蒸餾,硬要扯,也是在蒸餾Qwen2. 02/07 10:30
→ DrTech : 5-32B的能力。 02/07 10:30
→ holien : 現在學術研究為了比快,有人會先放在arrive,宣示 02/07 10:31
→ holien : 自己的成果。 02/07 10:31
→ DrTech : 蒸餾老半天,結果還是輸deepseek-R1阿。論文都寫了 02/07 10:31
→ DrTech : 。 02/07 10:31
→ DrTech : 研究貢獻也不在 "媲美deepseek-R1" 明明就輸很大, 02/07 10:38
→ DrTech : 標題亂寫而已。 02/07 10:38
推 newyorker54 : 我書讀的不多 02/07 10:45
→ newyorker54 : 所以結論是deepseek r1繼續用? 02/07 10:46
推 atpx : 推 02/07 10:46
推 kissa0924307: 結論NVDA續抱 02/07 11:04
推 stlinman : 說個笑話李飛飛不懂學術界正式用語! 02/07 11:11
推 clou : 白痴媒體真的多,不過想想也是因為有這些股市才能賺 02/07 11:12
噓 watashino : 蒸餾沒錯啊 但確實也是在fine tune 02/07 11:18
→ ImHoluCan : 原來是Dr,專業 02/07 11:31
→ ImHoluCan : Dr大真的專業的,很多人看新聞不自己去查一下 02/07 11:33
→ ImHoluCan : 有人會不認識這Dr兄? 還在那反駁Dr兄,以後好人就 02/07 11:36
→ ImHoluCan : 越來越少人發文了 02/07 11:36
噓 HenryLin123 : 這咖我記得業內人士也在推面板股的,我有沒有記錯 02/07 11:56
→ HenryLin123 : ? 02/07 11:56
推 greprep : 推專業良心 02/10 23:49