→ oysteromele: 類似32bit升64bit? 42.77.7.186 08/28 18:46
→ motan: 還是模糊運送?116.241.142.240 08/28 18:50
噓 sonicyang: 什麼爛機翻把AI token翻成代幣... 49.239.81.245 08/28 19:05
推 j112233446: 32到64是提高精度、做更大更精確的計 39.12.120.49 08/28 19:47
→ j112233446: 算,文中講的是量化,降低精度、減少 39.12.120.49 08/28 19:47
→ j112233446: 儲存量並且提昇運算效率 39.12.120.49 08/28 19:47
推 oysteromele: 樓上…請問是指降低暫存記憶體的重要 42.77.7.186 08/28 20:01
→ oysteromele: 性嗎? 42.77.7.186 08/28 20:01
推 j112233446: 減少暫存就能放參數更多的模型,但通 39.12.120.49 08/28 20:06
→ j112233446: 常在server端更重要的是運算效率,4b 39.12.120.49 08/28 20:06
→ j112233446: its的運算一定比8/16bits快 39.12.120.49 08/28 20:06
推 brightest: 聽起來比較像數據壓縮 59.115.159.136 08/28 20:09
推 eineFrage: 看起來有點類似不需要flac檔(反正木耳 36.231.156.232 08/28 20:13
→ eineFrage: 居多),給你mp3就可以交差了事。 36.231.156.232 08/28 20:13
推 j112233446: 對的 概念上類似 39.12.120.49 08/28 20:14
→ fantasystar: ... 官方新聞稿是六月24,結果鉅亨網 36.224.243.191 08/28 21:04
→ fantasystar: 在八月底當新聞貼 36.224.243.191 08/28 21:04
→ fantasystar: 喔,真正的原始新聞應該是這篇: http 36.224.243.191 08/28 21:07
→ fantasystar: s://developer.nvidia.com/blog/nvfp 36.224.243.191 08/28 21:07
→ fantasystar: 4-trains-with-precision-of-16-bit- 36.224.243.191 08/28 21:07
→ fantasystar: and-speed-and-efficiency-of-4-bit/ 36.224.243.191 08/28 21:07
→ fantasystar: 訓練用 FP4 的,上一個是 gpt-oss 61.220.35.170 08/28 21:20
→ fantasystar: 不知道 NVFP4 vs MXFP4 可以差多少 61.220.35.170 08/28 21:21
→ yunf: 這是什麼意思一下跳兩代的意思? 101.10.80.82 08/28 23:01
→ yunf: 9樓要加上同樣硬體才會成立 101.10.80.82 08/28 23:03
推 abyssa1: 告訴你不需要用FHD, 只要從頭到尾都VGA111.249.184.155 08/29 00:06
→ abyssa1: 就可以111.249.184.155 08/29 00:06
→ abyssa1: 原本的架構是mismatch的 FP訓練 然後4b111.249.184.155 08/29 00:07
→ abyssa1: 推論 他的意思是從一開始就4b訓練 很棒111.249.184.155 08/29 00:07
推 Kawasumi: 用有點不倫不類的比喻比較像發明了JPEG218.221.159.109 08/29 04:41
→ Kawasumi: 壓縮218.221.159.109 08/29 04:41
推 Kawasumi: 這是不是表示如果下放給一般消費級顯卡218.221.159.109 08/29 04:46
→ Kawasumi: 用就能讓16GB的VRAM跑32GB的模型?218.221.159.109 08/29 04:46
推 doranako: 感覺是新的壓縮技術,蠻屌的,nv獨家還 220.129.24.62 08/29 07:22
→ doranako: 是其他非nv也可以用? 220.129.24.62 08/29 07:22
→ Baling99: 我的理解是,把大矩陣切割成小矩陣,小矩 49.216.17.130 08/29 08:07
→ Baling99: 陣裡的非零資料採用一個共用指數,然後以 49.216.17.130 08/29 08:09
→ Baling99: 4bit表示除過這個共用指數的結果 49.216.17.130 08/29 08:10
→ DrTech: 靠縮放因子,就是精度有損啊。新聞也太吹 42.73.99.17 08/29 08:26
→ DrTech: 牛了啦。 42.73.99.17 08/29 08:26
→ DrTech: 而且訓練結果跟FP8差不多。結論:大廠沒人 42.73.99.17 08/29 08:27
→ DrTech: 要用,一般消費者用不到。 42.73.99.17 08/29 08:27
→ WenliYang: 好了啦 瞎吹 27.51.2.92 08/29 08:58
→ kuyfd456: 所以實際效益? 49.216.160.131 08/29 09:09
→ fantasystar: 實際效益就是精確度差一點但是訓練成 36.224.243.191 08/29 11:11
→ fantasystar: 本降低很多啊。在搶世界第一的那些人 36.224.243.191 08/29 11:11
→ fantasystar: 我猜不會急著用,但是預訓練小一點的 36.224.243.191 08/29 11:11
→ fantasystar: LM 應該就挺不錯,反正這些小模型大 36.224.243.191 08/29 11:11
→ fantasystar: 多最後也要做 quantization 36.224.243.191 08/29 11:11
→ fantasystar: 另外我上面有點講錯了,gpt-oss 是後 36.224.243.191 08/29 11:13
→ fantasystar: 訓練才用 MXFP4,現在這個新聞是前訓 36.224.243.191 08/29 11:13
→ fantasystar: 練就用 NVFP4 36.224.243.191 08/29 11:13
推 eineFrage: 有損壓縮就是折衷主義,商用的話追求效 167.247.20.113 08/29 13:32
→ eineFrage: 益比或許可以,研究領域最好還是能喂食 167.247.20.113 08/29 13:32
→ eineFrage: 完整版的資料。 167.247.20.113 08/29 13:32
推 veryGY: 共用bit? 114.45.213.25 08/29 17:34
推 lulululula: ms幾個月前有發1.58bit的模型 49.214.0.170 08/29 17:51
推 zipigi: 猛,INT4訓練能這麼強真的鬼 220.135.95.92 08/29 19:47
→ chng8371: 反正人腦的解析度也就那樣的概念 ai不用223.137.174.240 08/29 21:33
→ chng8371: 太精細糾結?223.137.174.240 08/29 21:33
推 kkes0001: 人腦比ai強很多吧 223.136.104.45 08/29 23:54
推 Morphee: 就是看整張馬賽克的a片感覺跟高清一樣高 111.240.94.165 08/30 06:59
→ Morphee: 潮迭起。 111.240.94.165 08/30 06:59
推 Aquarius126: 8bits變4bits 硬體需求就變1/4,同樣 49.218.145.170 08/30 12:19
→ Aquarius126: 的資源下可以做到4倍的訓練量,或是 49.218.145.170 08/30 12:19
→ Aquarius126: 服務4倍的客人,應該算不錯吧(?) 49.218.145.170 08/30 12:19
→ Aquarius126: 另外NN訓練用了一堆Activation跟Drop 49.218.145.170 08/30 12:22
→ Aquarius126: out,本來就充滿隨機性跟折損,只要 49.218.145.170 08/30 12:22
→ Aquarius126: 單次訓練有效,可以靠大量迭代來逼近 49.218.145.170 08/30 12:22
推 fgkor123: 腦子不用太好,人數來湊 27.51.80.59 08/31 07:04
→ alongalone: 翻譯應該有問題,4bit怎麼可能 123.193.254.2 08/31 08:31
推 xl3andbp6: 看ppt ptt長腦子 42.72.85.22 08/31 09:32