看板 Tech_Job 關於我們 聯絡資訊
※ 引述《xross (xross)》之銘言: : AI 比你想得有料 : Andrej Karpathy 自己都說他自己大部分時間都靠 AI 生 code 了 : https://karpathy.medium.com/software-2-0-a64152b37c35 : 這篇老文章就有說 : 空間時間複雜度?? 可以吃嗎 : Software 2.0 告訴我們 : Constant running time : Constant memory use : 內文也提到 : 人類智慧結晶 搞出來的 cache-optimized B-Trees 直接被 AI 幹翻 : (版上臥虎藏龍 手魯industry-ready-B-Tree的高手可以出來嗆一下嗎?) : "outperforming cache-optimized B-Trees by up to 70% in speed while saving an : order-of-magnitude in memory." : 這讓我想到 DLSS 也是藉由 AI/DL 直接做到以前一堆專家搞出來的upscale + AA根本 : 到不了的好效果 : 說了這麼多 : 希望能盡快看到 官方 PTT app : 目前可能 AI 還在學習怎麼寫 下班前看到就認真回覆一下, 先說你有點搞錯Karpathy所謂的Software 2.0了,Software 2.0也不是什麼很新的概念。 他的概念就是過往我們使用從底層打包上來的Library來顯式開發API為Software 1.0,而 2.0則是只有定義數據集,定義神經網路框架跟訓練,最後將網路編寫成二進制透過工業 化流水線軟體平台部署。 不過有一個很大的前提,「定義搜索空間跟優化方向」,這個神經網路優化方向是需要人 工來定義的,這邊其實前幾年AlphaTensor就有做出實驗,直接透過強化學習去找矩陣乘 法的最佳解,結果確實找到了一組可以應用的比原本最佳矩陣乘法快了20%的解。 定義目標的依舊是電腦科學家/工程師,不是說什麼老闆/PM啊,你去跟老闆/PM講解Low r ank tensor decomposition ,他只會跟你說聽不懂。 其實Software 2.0就是現在我們在做的深度學習/LLM這件事情,理論上有可能讓一個夠大 的模型來解決一切的問題,讓神經網路包覆整個底層軟體。如果要做一個複雜功能就直接 給兩個Software 2.0模組組合去一起做反向傳播優化,然後就可以去配適到我們的開發任 務上,只是那個結果我們可能很難解釋他(90%的ACC不一定代表能夠fit到所有未知的數據 上)。 如果模型參數量不夠大還是會有No free lunch的問題,所以未來很長一段時間依舊是會 有神經網路搭配顯式編程的方式持續,Karpathy後面也有提出Software 2.0的限制,不是 絕對樂觀看待的。 以上 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.6.129 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1685441687.A.A94.html ※ 編輯: sxy67230 (101.10.6.129 臺灣), 05/30/2023 18:15:17 ※ 編輯: sxy67230 (101.10.6.129 臺灣), 05/30/2023 18:15:36
j0958322080 : Low rank tensor decomposition 工程師可能也不懂 05/30 18:30
就只是low rank decomposition矩陣擴張成三維而已,大學線代有認真上課看一下就懂了 ,模型只是我們把已經知道的算法透過神經網路跟強化學習做空間搜索而已 ※ 編輯: sxy67230 (101.10.6.129 臺灣), 05/30/2023 19:00:28 ※ 編輯: sxy67230 (101.10.6.129 臺灣), 05/30/2023 19:00:54
n00bmaster : sw2 web3 工業4 5g網路 炒股口號不知何時可以湊滿 05/30 22:35
DrTech : 難得有認真討論文,而且是正常ML背景的文章 05/31 00:13
kirayue : 推 05/31 03:06
labbat : 這個矩陣乘法化簡是今年的唄,哪有幾年前那麼久 05/31 04:08
gcnet : 30年前就被問過這題05/31 07:23
※ 編輯: sxy67230 (101.10.6.129 臺灣), 05/31/2023 08:11:27