作者sxy67230 (charlesgg)
看板Gossiping
標題Re: [問卦] AI怎麼會突然爆發?
時間Sat May 23 23:32:19 2026
※ 引述 《zxc0312》 之銘言:
: 好像是去年還是前年開始
: 網路上突然同時跑出好幾個AI的網站
: 說是語言模型
: 可以理解語言 創造語言
: 幫你整理資料 做東西
: 大家不覺得很奇怪嗎?
: 這種東西基本上2010年那時候也有
: 怎麼大家都不重視?
: 突然在這幾年一起爆發?
: 為什麼AI會突然出現?
阿肥外商碼農阿肥啦!
認真回你,AlexNet是2012年才出來的,在這以前一堆教授都是在做SVM或是Logistic Regre
ssion,圖像會用HOG或是SIFT做feature extraction,沒人覺得NN work,一直到Hinton 兩
個學生用NV遊戲顯卡跑出來。
然後之後開始有人做LSTM、CNN就已經有注意力機制發現很有用了,只是沒人試過全部放開
參數像transformers一樣讓模型自己學,因為梯度很容易爆開,可用數據量那個年代就少的
可憐。不過那個時候就有人發現讓序列生成做問答有用,就是很容易壞掉所以只能當玩具。
以前的年代也只有Google或是受到贊助的實驗室能用到快80張A100就已經算很厲害了,大部
分實驗室有8張A100算有錢實驗室了,當然都只能做小規模訓練然後結合一些人為的知識建
模在裡面好提高模型的學習效率。
不過那個時候就已經很多人發現隨著深度學習模型參數提高其實沒有像傳統機器學習一樣會
過擬合的神奇現象,反而會出現一種本來死都學不會突然就會了的狀況。
後來就是大家發現到傳統那種語言模型的建模預測上下文方式可以拿到圖像等等其他領域讓
模型先訓練在海量的雜訊數據上固定住在做微調很有用,於是就有自監督學習。
隨著訓練規模增加,大家又發現到模型開始出現一種few shot的能力,也就是不在需要給模
型固定的類別或是數值範圍預測,只要適當的設計模型自己會有比對萬物特徵的能力。
更不用說除了這些範式改變外,其實還有很多零碎的改進像改善模型做深反向傳播會梯度爆
開的問題,於是就有人針對模型做歸一化去確保每層恆等映射,還有優化器的改進都是一點
一點改進的。
所以認真說,除了第一次AlexNet是真的突然爆發外,深度學習模型一直都是無數的改進加
上硬體逐步提升算力才達到現在AI爆發的。不過對於大眾對學術沒什麼認識的才會有突然爆
發的錯覺。
差不多4獎
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.160.254.57 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1779550341.A.91C.html
→ paladin499: 這AI寫的吧111.241.156.247 05/23 23:33
→ luciffar: 就是突然爆發沒錯啊 前幾年只能算圖223.141.136.244 05/23 23:36
→ luciffar: 做影片還要一張一張把臉換掉 有夠鳥的223.141.136.244 05/23 23:36
→ luciffar: 25 26突然整部電影都做得出來了223.141.136.244 05/23 23:37
推 leonidass: AI發展上還是得歸功硬體計算能力,不36.224.140.107 05/23 23:39
→ leonidass: 然軟體上的計算理論還是超過硬體需求36.224.140.107 05/23 23:39
→ leonidass: 不少 36.224.140.107 05/23 23:39
相互提升才是真實情況,不然訓練隨便都爆開變NaN給你1000張現代的顯卡也跑不出什麼洨
出來。
※ 編輯: sxy67230 (1.160.254.57 臺灣), 05/23/2026 23:45:25
→ potionx: 軟硬體本來就是互相成就的~ 118.166.71.82 05/23 23:47
→ potionx: 以前蘇聯搞計畫經濟用人力去算 118.166.71.82 05/23 23:47
→ potionx: 理論看似可行 實際操作一團狗屎就炸了XDD 118.166.71.82 05/23 23:48
推 bitcch: 算力一直都是缺的 不然演算法還要看O幹嘛 49.216.173.128 05/24 00:09
推 StarTouching: 推 其實就是循序漸進上來 114.46.0.88 05/24 00:15
→ StarTouching: 突破了奇異點 乍看才會像是爆發 114.46.0.88 05/24 00:16
推 sdbb: 謝謝 112.104.153.3 05/24 00:32