推 moboo : 板上同時有高水準文章好不適應xd 02/17 09:48
推 switch : 強大 02/17 10:07
推 e12518166339: 推一下02/17 10:09
推 paulcaptain : 湧現的現象確實很耐人尋味,差500這個點是chatGPT02/17 10:15
推 paulcaptain : 有意為之還是真的算錯?還是真的耍俏皮?耐人尋味 02/17 10:18
推 IdiotYuan : 推 02/17 10:45
推 roseritter : push 02/17 10:49
推 jhangyu : 推 02/17 10:58
→ samm3320 : 好認真啊02/17 10:59
噓 recorriendo : 一堆不太相干的名詞 其實什麼都沒解釋到02/17 11:09
對,我可能講得不太好,這邊是綜合好幾篇的Paper跟自己長年研究NLP的一點小心得,真
的有興趣我覺得可以延伸閱讀,Emergent Abilities of large language model,這是去
年Google research 跟Deep Mind的綜合成果,裡面也有詳細的實驗。敝人學識淺薄,我
說得不好還請包含~
推 ma721 : 很像ChatGPT 的回答02/17 11:12
推 colon2 : 你講的很清楚,我聽的很模糊 02/17 11:13
推 la8day : 你講的沒錯02/17 11:27
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 11:41:55
推 h920032 : 湧現這個現象確實很有趣 但目前缺乏證據跟因果關係02/17 11:51
目前包含Google research 那篇(Jeff Dean也是作者之一)都是從實驗結果驗證出來的,
利用物理跟生物的定律來解釋為什麼量變產生質變、大力出奇蹟有效,不過人類當前對於
複雜系統為什麼會產生質變跟穩定性還有得探究的說,真的要研究嚴謹一點的證明LLM可
能還需要再等等。大型語言模型怎麼發生突發演生都能成功解釋的話,那複雜系統問題包
含預測混沌都有解了。
補充一下:我會接受這個觀點主要還是這樣的現象與實驗佐證的合理性很高,而且非
常直覺,可能已經接近解釋LLM跟人腦的真相了,否則人類做為地球上的一個物種之一,
為
啥只有人類發生智慧,不太可能是因為有特殊構造比較大的可能是我們的神經元連結發生
了物理意義上的突發演生,這也符合奧卡姆剃刀原理,簡單可能是最接近真相的。
※ 編輯: sxy67230 (49.216.176.13 臺灣), 02/17/2023 13:43:27
推 oachan : 不錯的觀點,目前LLM百花齊放,未來期待有更多的研 02/17 14:53
→ oachan : 究 02/17 14:53
推 utn875 : 有趣的文,推推 02/17 15:04
推 donkilu : 推 大力出奇蹟確實是很有意思的觀察 02/17 15:26
推 erlin : Self attention 要怎麼讀才能瞭解? 02/17 15:49
推 joygo : AGI才正要開始,蠻多學校要開始弄了02/17 16:42
噓 DrTech : 外行人瞎扯路)亂說,順便算大神LeCun,結果還有人推 02/17 17:18
→ DrTech : 。 02/17 17:18
→ DrTech : 真的是越外行越愛酸真正懂AI 的人耶 02/17 17:19
→ DrTech : 你先去看那篇論文的 Emergent ability是怎麼定義的02/17 17:25
→ DrTech : ,跟你解釋瞎扯的完全不同。 02/17 17:25
→ DrTech : 那篇論文是模型大到一定程度說loss的突然降低,沒說 02/17 17:26
→ DrTech : 會出現本來不具備的能力喔。 02/17 17:27
DrTech大大別氣,我也沒有否定LeCun也沒酸他,就是不贊同他說是歪路而已,但我也認
同他說的當前LLM沒有因果推理能力。還有我覺得大大可以重讀一下paper,作者是用Big-
Benc
h給予測試主要是以EM/BLUE/ACC跟模型參數大小為指標研究(後來還有魯棒性就暫時不提
了
),作者確實有研究loss在附錄中發現一些特定任務在小模型上雖然loss有下降但Error R
ate卻沒有反應到下游任務上,當參數量加大突然就獲得了小模型本來不具備的能力,這
個作者定義為湧現能力。(我想是我在原文中因為一次性想說明太多事情所以就直接給了
結論,這樣造成閣下誤會我也跟你道歉)。好好討論就好,不要動不動爆氣喔~
→ create8 : An ability is emergent if it is not present in02/17 17:38
→ create8 : smaller models but is present in larger models.02/17 17:39
→ recorriendo : 生出合格的語言/程式碼和生出合格的數學式本來就不 02/17 18:15
→ recorriendo : 是同一件事 02/17 18:15
→ recorriendo : 1+1=3是合格的語言/程式碼 回傳為False02/17 18:17
→ recorriendo : 所以 重點更在於在不同脈絡下 人類感覺"厲害"的標 02/17 18:20
→ recorriendo : 準不一樣了 自己卻沒意識到 02/17 18:20
→ recorriendo : 你對數學式做再多樹狀分析 也找不到使數學式為真的02/17 18:33
→ recorriendo : 規則 因為那是semantics不是syntax 02/17 18:33
推 jamesho8743 : 湧現這種現象本來就很符合現實 現實中很多複雜的東 02/17 20:06
→ jamesho8743 : 西其基礎構造都很簡單 比如說邏輯閘最後變成CPU GPU 02/17 20:06
→ jamesho8743 : 量大到一定程度 量變產生質變 02/17 20:06
※ 編輯: sxy67230 (114.45.57.172 臺灣), 02/17/2023 21:52:09