看板 Gossiping 關於我們 聯絡資訊
※ 引述《Supasizeit (Shitpost King)》之銘言: : 阿北當年聯考數學95 : 可是沒有念資工 : 今天心血來潮 : 嘗試理解LLM transformer 原理 : 可是講到token就聽不懂了 : 然後又變成embedding : 弄一弄變成weights : 怎麼突然就變成attention block : 這不是大學生每個都懂的東西嗎 : 我是不是失智了 LLM就像一個大型的圖書館加大腦 Token就是模型「讀字的最小單位」 例如說:"我今天很開心"這句子 可以拆成 我、今天、很、開心 這樣四塊token 雖然不見得一個字詞就是一個token 但大致上你可以看成是模型理解自然語言的最小單位 embedding就是向量座標, 你可以想像成在一張大地圖上, 紀錄放置「字詞意義」的位置,用來幫助llm理解語意 像是"香蕉"和"螺絲起子"語意地圖上可能會離很遠、 "香蕉"和"水果"可能就會在地圖上放得很近, 這樣歸類放置之後LLM可以更快更清晰的理解意思。 Weights比重就像是食譜, 一樣以「我今天很開心」這個句子舉例, 應該是「今天」比較重要、還是「很開心」比較重要? 是基於長期訓練的結果, LLM的結果呈現是由大量的數學運算而來 Weights就像是控制要加多少調味料的食譜, 是在訓練過程中控制、調整的,長期訓練出來的知識。 Attention block你就當成是舞台上的聚光燈, 和weights有點像,是用來決定哪一個詞比較重要, 但Attention block架構中會動態調整其包含的weight 是短期的、當下處理token時決定聚焦在哪一個字詞。 放在一起看就是先想像成你是一個大廚, Weights=做一份義大利麵要3個蕃茄+1大蒜 Attention block=根據客人的狀態,動態調整要不要多加一點鹽、 今天的蕃茄比較酸要不要多加其他調味料中和...之類的 雖然我是文組的,也不知道理解這個要幹嘛 也不知道我理解對還不對, 但概念上應該不算太難懂,給你參考。 ----- Sent from PttX on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.70.242.234 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757336654.A.32D.html
s0914714: 你說的token比較像斷詞 123.241.68.54 09/08 21:24