看板 Gossiping 關於我們 聯絡資訊
※ 引述《Supasizeit (Shitpost King)》之銘言: : 阿北當年聯考數學95 : 可是沒有念資工 : 今天心血來潮 : 嘗試理解LLM transformer 原理 : 可是講到token就聽不懂了 : 然後又變成embedding : 弄一弄變成weights : 怎麼突然就變成attention block : 這不是大學生每個都懂的東西嗎 不是 : 我是不是失智了 所謂語言模型在處理什麼?其實就是人類的語言嘛。 所以除了要數學上的思考,也要站在人類語言的角度去理解。 那麼,token 是什麼? 其實就是模型讀入的最小單位。 這個 token 可能是word subword(類似字首字根) character等等。 英文主流的做法多半是用subword來分(如果有錯請糾正 XD)。 為什麼要這樣分? 想一想其實很合理。對人類來說,語言中意義的最小單位是什麼? 像 "dog" 這個字沒什麼好拆的,如果拆成 "d" 和 "og",對人類完全沒意義,和「狗」無關。 但有些字是由小單位的意義組成,例如 re-organ-ization。 怎麼切的話,算是演算法決定的, 不過,表現好的切法,通常人類看了也會覺得切得有道理。 Embedding 就是把每個詞轉換成向量。 因為模型只能處理數字, 所以需要建立一個 token → embedding(向量) 的對應表, 再把語言的意義透過向量來處理。 問題是,怎麼建立這個對應表? 在機器學習裡,最簡單的方式就是 one-hot。 例如: dog → (1,0,0) cat → (0,1,0) mouse → (0,0,1) 可是這樣效率很差。 語言裡動輒上萬個 token,多語言甚至可能上百萬。 這樣輸入輸出的維度就超大,還有很多同義詞、近義詞白白浪費空間。 因此通常不會用 one-hot,而是對應到一個「較小維度」的向量空間(幾百到幾千維)。 而且這些向量對應不是隨便定義,而是透過模型訓練學出來的。 這樣才能讓向量比較具備語義,例如: cat 與 kitty 的距離最近 cat 與 dog 比較遠 cat 與 car 幾乎沒關係 簡單來說,embedding 就是在機器學習裡, 模型可讀取的意義/資訊表達,通常是一個多維向量。 是機器理解概念的方式。 至於 Transformer,可以想成對人類理解語言方式的一種模仿。 網路流行說:「每個字都看得懂,但合起來卻看不懂。」 這正是語言理解的關鍵—— 人會先讀懂單字,再把上下文合起來理解。 文字擺在一起才有整體意義, 而單字的意義常常是上下文決定的。 舉例: 英文的 interest 可以指「利益」、「利息」、「興趣」。 當前後文提到貸款和數字時,我們會理解成「利息」。 當出現娛樂相關語境時,就會理解成「興趣」。 Transformer 的重點就是: 從原本的單詞意義出發(token/embedding),找出上下文關聯,合成新的語意, 新的、更精準的含上下文embedding (contextual embedding)。 哪些字彼此有關聯,模型就會把它們合起來看。 例如 interest 與 loan 一起出現時,模型就會發現它們高度相關,進而推斷這裡指的是 「利息」。 Transformer 的核心是 自注意力機制。 它的訓練目標之一,就是讓模型學會: 某個 token(或 embedding)應該去「注意」哪些其他 token。 這就是所謂的「注意力」。 意思是:當看到這個詞時,應該去關注哪些相關的詞, 而這些相關詞會幫助模型正確理解它的意義。 所以不管是 token → embedding 的對應,還是 Transformer 的結構與訓練, 核心其實都是 字與字之間的關係。 也因此可以說:單一詞彙本身不構成意義,關係才構成意義。 現代機器學習方法,很多都是在模仿人類思考。 有時候拿來跟人類的理解、學習、思考方式對比, 會發現很有趣。 --- 附:注意力的數學/模型簡論 token → embedding → (Q, K, V) embedding 後面這個箭頭,就是訓練的部分: 怎麼把原本的 embedding 轉成 Q、K、V。 V 基本上就是語意表達本身。 Q 可以理解成「這個 token 應該去找哪些的 token 來注意」。 K 可以理解成「這個 token 該被哪些其他 token 注意」。 兩個 token 之間的注意力, 就是它們各自的 Q 與 K 的內積。 內積越大,關係越強,模型就越會去注意。 於是就利用注意力加權合併,就得到含上下文資訊的新embedding。 --- 回到你的問題 token -> 演算法切出的最小語意單元 embedding -> token的向量表示,好的embedding會包含字詞的意義訊息。 weights -> 應該是指 embedding轉成 V Q K 的參數(怎麼轉成VQK的) attention block -> transformer很複雜,裡面可能會有很多上述的注意力小模型串聯 並聯,attention block應該就是指每個小部分。 有懂嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 98.237.207.106 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757635162.A.3CB.html
brianuser: 沒有,但謝謝你的用心解說 218.164.23.48 09/12 08:00
herculus6502: 這篇你打多久 1.175.167.246 09/12 08:00
akito703: 長知識223.136.132.159 09/12 08:01
wanderchang: 懂了 118.165.93.61 09/12 08:02
fallinlove15: 講的很基礎 36.225.32.104 09/12 08:02
firose: 為什麼內積越大關係越強 111.241.51.73 09/12 08:05
模型算法是人訂的, 你先訂出內積越大關係越強 假如你模型訓練得好 之後訓練出來,相關文字的Q K向量,自然會相近 在理工方面這是很直覺的訂法,A B向量的相似程度就是 A‧B/(|A||B|) 在推薦系統的模型裡,也常常運用這概念
sha09876: 我以為是紅茶文,想說拉到最下面怎麼沒 36.230.217.48 09/12 08:07
sha09876: 有業業老公 36.230.217.48 09/12 08:08
assommoir: 推推 49.218.230.5 09/12 08:08
PPCYes: 6樓該複習一下高中數學 1.171.174.232 09/12 08:10
miniric: 內積越大代表這個向量在這個空間越靠近 220.143.193.51 09/12 08:11
miniric: 彼此,也就是意義越近。反之也有意義相 220.143.193.51 09/12 08:11
miniric: 反或者無相關性的概念存在。 220.143.193.51 09/12 08:11
miniric: 在資料科學中也有一種叫做 cosine 相似 220.143.193.51 09/12 08:13
miniric: 度 就是運用內積概念 220.143.193.51 09/12 08:13
ohyeah5566: 有趣 111.184.47.89 09/12 08:15
changmada: 看到一半往下找竟然沒出現胡歌老公 49.217.136.49 09/12 08:15
alotofjeff: 高手 42.79.5.233 09/12 08:15
zxc0312: 人家聯考數學99分? 118.153.237.3 09/12 08:16
phosphazene: 邏輯清晰 講得讓人淺顯易懂 59.124.93.79 09/12 08:16
g933246: 好文推一下 111.82.124.36 09/12 08:18
franktpmvu: 有料 36.226.120.222 09/12 08:20
yellowocean: 寫的超好懂,推一個 49.216.232.166 09/12 08:20
searoar: 太早了 推 114.34.203.69 09/12 08:23
s4511981: 眼睛:懂了。腦子:蛤? 111.249.27.193 09/12 08:24
jubilee: 推,寫得很清楚 114.137.226.77 09/12 08:24
renfro928: 推 49.217.194.66 09/12 08:25
Anyotw: 數甲90分,沒懂怎麼辦。我要從哪邊開始複 27.240.242.120 09/12 08:26
Anyotw: 習 27.240.242.120 09/12 08:26
有問題的可能不是算術能力吧 除非矩陣向量都忘光, 也只有用到矩陣向量而已, 比較難的可能是概念。
t81511270: 眼睛: 懂了 腦袋:塞不下這麼多token 125.231.7.199 09/12 08:26
wulongman: 讚喔 114.35.12.50 09/12 08:26
jeffguoft: 不錯哦,感謝分享 203.77.42.214 09/12 08:27
lance2136: 長知識了 39.10.65.32 09/12 08:28
Pmking: 推 220.136.83.68 09/12 08:28
tmuejoelin: 難得有優文 27.51.56.108 09/12 08:29
slurpee: ptt真的是包羅萬象 49.216.193.211 09/12 08:30
Mikuni: 推認真解說 111.71.92.200 09/12 08:30
slurpee: 懶得看但先推用心解說 49.216.193.211 09/12 08:30
SORAChung: 講的很基礎也很清楚,謝謝 111.251.74.226 09/12 08:32
hicjgogogo: 老師好 1.171.99.161 09/12 08:32
aa890051: 長知識了,推 42.73.74.73 09/12 08:32
starwillow: 好厲害講的外行人如我都能懂 39.9.229.8 09/12 08:33
fukku100: QKV的解釋不錯 39.12.105.66 09/12 08:34
Tassadar250: 哇,不錯耶114.136.239.150 09/12 08:35
somesomeone: 億點點懂給推 223.23.147.109 09/12 08:36
mrcat: 推推 49.218.243.52 09/12 08:39
ariadne: 真難得 竟然沒有期待的胡歌老公出現220.133.244.143 09/12 08:39
anneju: 推 133.200.42.0 09/12 08:40
koty6069: 推 解釋得好 42.70.214.247 09/12 08:40
rickphyman42: 說明的很清楚 讚 49.216.40.148 09/12 08:40
birdhouse1: 長知識推150.116.175.232 09/12 08:40
a40494: 我看完前段想說是不是阿月 42.75.16.131 09/12 08:42
Usaria: 推 114.136.162.66 09/12 08:42
solidworker: 長知識 推 223.137.182.7 09/12 08:42
※ 編輯: newwu (98.237.207.106 美國), 09/12/2025 08:45:20
LoveSports: 推 67.213.123.106 09/12 08:44
Aeolus1981: 感謝優文 111.82.197.219 09/12 08:44
LiarHunter: 理解了 114.136.102.18 09/12 08:45
pila0830: 推!淺顯易懂 101.8.131.142 09/12 08:45
js01078687: 推 42.70.115.154 09/12 08:46
ezafine: 早 114.136.42.169 09/12 08:46
henry4204aaa: 很好懂 謝謝 59.142.13.148 09/12 08:47
xhs: 神經網路能不能的解釋一下 什麼是RNn CNN FNN118.166.206.238 09/12 08:47
utn875: 優文 推 111.71.95.128 09/12 08:47
xhs: GAN118.166.206.238 09/12 08:47
bon01215: 終於有不是政治文的優質文了 111.82.217.115 09/12 08:47
ffgordon: 推 49.214.2.153 09/12 08:48
jb0110: 學到了 42.75.97.59 09/12 08:48
spksf0118666: 有所收穫,謝謝。223.139.213.240 09/12 08:49
pigvit: 推 給個讚 多懂了不少知識 118.166.20.188 09/12 08:49
behind0416: 好文感謝推!122.117.128.184 09/12 08:49
liefuchen: ML的理論基礎其實跟資工也沒太大關係 42.73.80.67 09/12 08:50
liefuchen: 就是 所以有些人會有種我明明會寫程式 42.73.80.67 09/12 08:50
liefuchen: 卻看不懂在幹嘛的感覺 42.73.80.67 09/12 08:50
y7moremore: 這是人類能理解的東西嗎 210.244.89.24 09/12 08:53
findwind0826: 就是模仿人類思維 61.220.100.151 09/12 08:54
findwind0826: 只是用程式模擬人類思維的方式 61.220.100.151 09/12 08:54
findwind0826: 當然token目前最好模仿的還是語言 61.220.100.151 09/12 08:54
Hscyin: 推 27.247.69.226 09/12 08:54
ok8ok8: 推一個 211.20.147.161 09/12 08:55
kiuygtde: 優文推 114.26.118.212 09/12 08:55
sharkman1793: transformer原理翻成中文是什麼意思118.166.206.238 09/12 08:57
sharkman1793: ?118.166.206.238 09/12 08:57
ok8ok8: 樓上 變形金剛阿 211.20.147.161 09/12 08:58
xx60824xx: 專業 101.9.103.155 09/12 08:58
iam1vol: 講的我也好像懂了! 101.10.95.19 09/12 09:01
gilingking: 講得很簡單清楚耶 是個高手 49.216.174.2 09/12 09:01
bassmaster: 謝謝 39.10.2.203 09/12 09:01
pla51: 能夠直觀理解 114.137.63.19 09/12 09:03
pttxo: 長知識 推 114.24.204.140 09/12 09:03
paul115: 沒錯沒錯 跟我想的一樣 101.8.133.113 09/12 09:03
IY1227: 難得的優質文 114.47.68.204 09/12 09:03
xhs: transformer專業術語是變壓器118.166.206.238 09/12 09:06
LierX: 推 42.78.15.64 09/12 09:06
qwop5: 沒有業業老公 42.73.48.33 09/12 09:07
rick917: 分享優文推 36.228.233.195 09/12 09:07
capssan: 谷歌有出transformer的課程,解說搭配簡 42.72.88.20 09/12 09:07
capssan: 易實作,真的想了解的話可以去看看,大 42.72.88.20 09/12 09:07
capssan: 概半小時的課程就能有概念了 42.72.88.20 09/12 09:07
nalthax: 概念講清楚的很不容易218.164.152.138 09/12 09:07
kilid: 謝謝 223.200.9.43 09/12 09:08
h44256: 太強了114.137.238.195 09/12 09:10
melancholy07: 推個 49.218.139.36 09/12 09:10
w45452515: 好專業 推個 37.19.206.47 09/12 09:10
jack41402: 漲姿勢 107.77.206.212 09/12 09:10
Kazetachinu: 好久沒在八卦看到科普QQ 80.113.117.144 09/12 09:11
windydancer: 感謝分享,好像懂了一點 1.169.199.197 09/12 09:12
icecreamxk: 可以問為什麼是QKV這個想法嗎 我都只 39.12.176.96 09/12 09:12
LPCbaimlly: 推專業 118.166.83.45 09/12 09:12
icecreamxk: 找到QKV的解釋 但找不到為什麼是QKV 39.12.176.96 09/12 09:12
icecreamxk: 但不是用其他方法 39.12.176.96 09/12 09:12
sjr500: 感謝資訊梳理,難得八卦清流111.251.160.234 09/12 09:12
mistake18228: 推推 42.72.83.109 09/12 09:12
YaLingYin: 懂了223.137.164.233 09/12 09:12
Kazetachinu: 八卦墮落已久 哎 80.113.117.144 09/12 09:12
rickyshiter: 推 140.116.85.249 09/12 09:12
pat740515: 笑死,在八卦版這麼認真幹嘛 49.216.253.249 09/12 09:13
pooh991: 謝謝老師 111.83.97.41 09/12 09:14
dodoju: 推一個! 220.129.204.18 09/12 09:15
odanaga: 李宏毅幾班 218.35.157.106 09/12 09:16
Raislin: 推 203.69.64.35 09/12 09:16
shaon: 挺有趣 49.216.252.126 09/12 09:17
Jiajun0724: 少見的八卦優文 114.45.184.35 09/12 09:18
shadtalker: 好文推爆 220.129.150.34 09/12 09:19
kria5304: 人家在講幹話你他媽那麼認真幹嘛XD111.248.123.242 09/12 09:19
monkeytsai: 用心推 123.192.89.158 09/12 09:19
shinshy: 少見優文 101.10.94.130 09/12 09:19
Aequanimitas: 有料 49.217.57.116 09/12 09:20
shawn0727: 超讚 解釋的很好 42.75.243.241 09/12 09:20
song6: 真八卦 27.51.3.240 09/12 09:20
shoeshoeya: 推 203.69.243.1 09/12 09:21
jdchbo: 推優質好文 42.72.147.251 09/12 09:21
kerbi: 淺顯易懂 感謝分享 1.34.157.1 09/12 09:21
TeamFrotress: 推專業 101.12.162.135 09/12 09:22
fatfatjohn: 長知識了 223.138.117.25 09/12 09:23
shrink5566: 好好懂 42.72.42.107 09/12 09:23
laputaca: 讚讚 118.232.3.183 09/12 09:23
awheaton311: 基礎文很清楚給推 111.80.15.28 09/12 09:24
nbook: 害我看到一半緊急拉到底 居然不是阿月XD 123.194.41.17 09/12 09:24
MusicD: 深入淺出 推個 211.72.116.78 09/12 09:24
yof: 優文223.138.216.255 09/12 09:25
LoveSports: VQK比較快 類似用直覺講外語 67.213.123.106 09/12 09:26
LoveSports: 其他方法例如RNN/LSTM比較慢 類似一個 67.213.123.106 09/12 09:26
LoveSports: 人講外語時還在大腦排列文法順序 67.213.123.106 09/12 09:26
joeyben: ... 完全看不懂223.141.241.219 09/12 09:27
LoveSports: 以上回ice大 剛好最近看書跟AI討論過 67.213.123.106 09/12 09:27
a0952864901: 深入淺出誒 謝謝說明 61.222.154.77 09/12 09:28
DKPCOFGS: 推 感謝教學 119.14.204.108 09/12 09:30
iamstrong706: 跟我想的一樣 175.98.154.254 09/12 09:30
callmefuck: 優 203.189.140.68 09/12 09:30
TZephyr: 很好懂,優文 61.218.53.138 09/12 09:30
h94g41up: 推 36.228.212.70 09/12 09:31
RaiGend0519: 神人 223.138.145.17 09/12 09:31
yuiscarlet: 懂了 跟破音字一樣你看了其他字會知道 114.137.84.138 09/12 09:32
EEReck: 大推 101.10.157.57 09/12 09:32
yuiscarlet: 怎麼念? 114.137.84.138 09/12 09:32
tinuo: 推熱心講解 1.160.206.166 09/12 09:33
dtdon1699: 不懂 36.231.174.142 09/12 09:35
arodisgod: 感謝解說 211.72.92.225 09/12 09:35
vespar: 害我以為紅茶冰 101.9.100.207 09/12 09:35
vickwang: 嗯嗯嗯 跟我想的差不多 42.72.37.213 09/12 09:36
sora1122: 講得真好,我一個純粹的外行人居然看懂 103.17.91.93 09/12 09:36
sora1122: 了 103.17.91.93 09/12 09:36
chiuweiyu: 推 101.10.107.75 09/12 09:36
OldDaiDai: 推223.137.235.202 09/12 09:37
GenesisXD: 懂了 謝謝 101.10.85.21 09/12 09:37
JY1102: 謝謝你我看懂了,但沒能理解!! 42.75.125.240 09/12 09:39
gmoz: 解釋的很棒耶 118.160.57.172 09/12 09:39
TomChu: 長姿勢 49.218.146.2 09/12 09:40
Gorientung: 優文 222.250.9.175 09/12 09:40
max205: 原來看八卦真的可以長知識 211.23.144.132 09/12 09:41
im31519: 感謝你的解釋 我不懂了223.200.123.249 09/12 09:43
a34567: 齁齁 61.231.21.99 09/12 09:43
hw1: 看到一半才想到要看id是不是張阿月223.140.156.158 09/12 09:43
IIIX: 幹你不當老師太可惜,我非資工都有點理解了 114.136.251.99 09/12 09:44
camphor0614: 優文 140.116.33.145 09/12 09:44
toyakoyosu: 這知識量滿滿,已愛 42.79.52.64 09/12 09:46
Fauns: 推,感謝大神 27.53.138.193 09/12 09:46
Coslate: 你講的太淺了 73.79.236.118 09/12 09:47
bgflyer: 看完這篇是不是等於我聯考數學95分? 1.168.31.37 09/12 09:47
kshtainan: 推 123.195.2.127 09/12 09:47
antinua: 謝謝解說 61.230.117.182 09/12 09:51
exe1349: 好多符號學的概念.. 42.79.160.205 09/12 09:52
paufan: 所以能知道青鳥腦袋為什麼有問題了嗎?就101.139.108.221 09/12 09:53
seanfan: 推!push!!! dog!!! cat!!! car!!!123.193.165.104 09/12 09:53
paufan: 是整個模型跟神經網路都有問題101.139.108.221 09/12 09:53
gogoangelin: 長知識 49.216.16.222 09/12 09:53
YCS08: 學到了,推 203.69.10.97 09/12 09:54
Wardyal: 優文 60.248.91.73 09/12 09:54
yesyesyesyes: 做Nlp的 101.12.234.38 09/12 09:55
durarara2020: 推 218.35.4.115 09/12 09:56
unmolk: 有料 73.208.170.42 09/12 09:56
Touber: 優文推 101.9.32.36 09/12 09:57
zyi840449: 我曾經想過如何讓電腦理解自然語言 60.249.146.13 09/12 09:57
yoursam168: 跟著推避免別人發現我看不懂 210.59.152.140 09/12 09:57
zyi840449: 這篇解釋的原理和我預想的差不多 60.249.146.13 09/12 09:57
lampar5566: 樓下說懂了 42.73.237.86 09/12 09:58
ericpan70096: 專業推 171.224.112.30 09/12 09:59
j020109873: 推 42.72.120.150 09/12 09:59
zyi840449: 而AI會產生幻覺也不難理解,因為當 60.249.146.13 09/12 09:59
zxm40059: 推 49.218.142.44 09/12 09:59
herryherry: 好猛 111.82.206.4 09/12 09:59
zyi840449: 輸入的資料太少見,導致他連結的token 60.249.146.13 09/12 10:00
aa001112: 用心文 39.10.9.2 09/12 10:01
patrickvv: 推推,好像懂了好像懂了 101.10.156.36 09/12 10:01
zyi840449: 太少,AI就只能抓到一些奇怪的東西 60.249.146.13 09/12 10:01
hw1: 其實原理蠻好懂的 就像教小孩子的那套拿來教223.140.156.158 09/12 10:01
zyi840449: 這時候AI就誤會我們的語意、另一方面 60.249.146.13 09/12 10:02
hw1: 電腦 給小孩子看一堆例子讓他們自己建立連結223.140.156.158 09/12 10:02
hw1: 舉一反三223.140.156.158 09/12 10:02
zyi840449: 當初程式設計應該是一定要有回應,所以 60.249.146.13 09/12 10:03
migration265: 好強 49.216.22.223 09/12 10:03
fakon: 學到了 106.64.160.8 09/12 10:03
hw1: 只是給電腦看的要多一步數位化 因為電腦只懂223.140.156.158 09/12 10:03
zyi840449: 少用的詞彙、或一直輸入相同命令但要求 60.249.146.13 09/12 10:04
hw1: 數字223.140.156.158 09/12 10:04
jojomickey2: 我數學不好也懂LLM了,這篇值得M 49.224.102.133 09/12 10:04
kerokrq: 怎麼不是阿月文? 111.71.124.40 09/12 10:04
kids1991: 長姿勢 42.72.7.128 09/12 10:06
frappe: 好久不見的知識性優文 118.163.8.128 09/12 10:08
k862479k: 胡歌老公呢 42.73.89.190 09/12 10:08
beersea0815: 推1樓 36.233.200.18 09/12 10:09
alex25694: 推 39.12.154.47 09/12 10:10
chris510127: 懂了 感謝你的解說114.137.165.222 09/12 10:11
k078787878: 推223.137.115.200 09/12 10:12
Bshido: U文 101.12.149.77 09/12 10:12
lifegoeson: 專業文沒看到業業老公很不習慣 111.65.60.71 09/12 10:14
young000: 難怪有人說漢字系統屌打拼音系統 49.97.9.38 09/12 10:15
tzouandy2818: 謝謝 223.140.67.193 09/12 10:15
nrsair: 推 49.217.122.121 09/12 10:16
seaning: 最後沒有胡歌老公 差評 39.14.8.188 09/12 10:19
admira: 謝謝解說! 49.215.44.75 09/12 10:20
pttwh99712: 推 42.73.17.177 09/12 10:20
a9202507: 還我阿月 111.71.122.98 09/12 10:20
Firmamentee: 推 101.8.235.54 09/12 10:20
Firmamentee: 但是看到這種知識文都會下意識看id 101.8.235.54 09/12 10:20
Firmamentee: 是正常的嗎? 101.8.235.54 09/12 10:21
ikaros5566: 這年頭優文不多了 42.79.113.102 09/12 10:21
Supasizeit: 對啊 就是卡在那個多維度向量 然後還203.204.195.174 09/12 10:22
Supasizeit: 要分層attend203.204.195.174 09/12 10:22
frontin: 那篇根本來亂的 111.243.99.51 09/12 10:23
Supasizeit: 不過廢文釣出優文 深感欣慰203.204.195.174 09/12 10:23
aa1477888: 前面問為什麼是QKV 答案是沒有為什麼 123.205.180.18 09/12 10:24
Supasizeit: 亂個屁 我真的有去研究203.204.195.174 09/12 10:24
aa1477888: 這就人訂的規則 123.205.180.18 09/12 10:24
aa1477888: Attention Is All You Need 一定要看 123.205.180.18 09/12 10:25
frontin: 這篇根本也只講皮毛而已 111.243.99.51 09/12 10:25
uyangpong: 懂了 謝謝 明天考台大資工 49.216.174.193 09/12 10:27
DNADEVIL: 長知識推 111.254.35.202 09/12 10:27
zzzprince: 謝謝,雖然看不懂,但感覺很專業 220.129.6.178 09/12 10:29
frontin: 這跟數學幾分一點關係都沒有 是理解力的 111.243.99.51 09/12 10:29
Supasizeit: 而且cat 跟 dog 的向量還可以相減 結203.204.195.174 09/12 10:29
frontin: 問題 111.243.99.51 09/12 10:29
Supasizeit: 果跟fox wolf類似 這太神奇了 怎麼搞203.204.195.174 09/12 10:29
Supasizeit: 出來的203.204.195.174 09/12 10:29
JMLee: 幫推個 218.166.19.144 09/12 10:34
osamu: 好像懂了又好像不懂,謝謝不是老公文的葛格 185.220.101.6 09/12 10:35
JMLee: 最大的重點就在注意力機制 但單是這個門檻 218.166.19.144 09/12 10:35
JMLee: 就很難普及理解了 218.166.19.144 09/12 10:35
ppn: 優文值得推一個 1.34.101.236 09/12 10:37
familymin: 推 122.146.130.2 09/12 10:38
ppn: 類似中文有時候文字順序混亂但人還是看的懂 1.34.101.236 09/12 10:39
ppn: 個人認為是相同的道理 但是這個方法有缺點 1.34.101.236 09/12 10:39
ppn: 因為只有關係沒有順序 對特定需要順序的狀況 1.34.101.236 09/12 10:39
ppn: 效果就很有限 所以是AI有時會出錯的原因之一 1.34.101.236 09/12 10:41
sanadayasu: 推認真解釋,淺顯易懂 42.79.63.130 09/12 10:43
yylin3266: 數乙 50 分的我看完這篇感覺數學變好 111.82.251.62 09/12 10:43
ppn: 原PO講的不深但這正好適合普羅大眾 1.34.101.236 09/12 10:43
yylin3266: 了! 111.82.251.62 09/12 10:43
carryton: 這些背後包含MLP都是統計學跟工程數學的 42.79.28.87 09/12 10:43
carryton: 公式 42.79.28.87 09/12 10:43
carryton: 只會高中數學看不懂很正常吧 42.79.28.87 09/12 10:43
carryton: 不懂台灣人整天強調自己高中多強幹嘛 42.79.28.87 09/12 10:43
carryton: 皮毛學的很好很猛嗎 42.79.28.87 09/12 10:43
arki: 難得好文 61.220.103.29 09/12 10:47
ppn: 程式大多數的數學原理也都沒有很複雜其實 1.34.101.236 09/12 10:47
WWIII: 認真文 推爆 60.251.55.188 09/12 10:47
ppn: 但是在對的時間地點方向用能說的就多了 1.34.101.236 09/12 10:48
Dazol: 認真文給推 1.173.170.248 09/12 10:48
s81048112: 許久不見的八卦好文 27.51.153.16 09/12 10:48
fertalizer: 好 61.216.94.79 09/12 10:50
engliat: 好文推推 27.51.32.127 09/12 10:51
rhox: 幸好我早就知道了 118.168.158.51 09/12 10:52
rin0sin: 211.23.235.145 09/12 10:52
hoertt10: 推 111.71.123.247 09/12 10:54
waitu0526: 害我看一下id 還好沒有老公 42.72.220.23 09/12 10:59
bobyhsu: 因為這跟數學沒關係啊== 27.52.64.217 09/12 11:00
bobyhsu: 底層建立於數學運算 但一般人開始學根本 27.52.64.217 09/12 11:00
bobyhsu: 也碰不到底層 然後高中數學程度想要摸進 27.52.64.217 09/12 11:00
bobyhsu: 去底層更是天方夜譚 27.52.64.217 09/12 11:01
irin1010g: 推 39.12.57.116 09/12 11:02
dan641956: 已經過了五年,主流技術還在attention 42.79.31.91 09/12 11:03
dan641956: 跟transformer喔? 42.79.31.91 09/12 11:03
airmike: 講得真好! 211.20.104.63 09/12 11:06
z635066: 是阿,所以才在洗應用市場 61.223.223.251 09/12 11:06
eoeoeo: 推 223.137.245.4 09/12 11:07
geniussilly: 推 118.167.157.70 09/12 11:07
zzzzzzzzzzzy: 謝謝老師! 42.71.37.158 09/12 11:09
MasterLai: 推 看完是懂了,但要怎麼轉換成程式? 39.10.24.157 09/12 11:09
z635066: 跟數學有關啦,這些搞來搞去沒超出一個mo 61.223.223.251 09/12 11:09
z635066: dule 61.223.223.251 09/12 11:09
rockrockrock: 可以看李宏毅教授的ML 24.23.129.152 09/12 11:09
imshamus: 可以解釋到外行的也能初步理解真的 49.218.95.190 09/12 11:10
imshamus: 厲害 49.218.95.190 09/12 11:10
z635066: 原則上線代夠好就都很簡單;畢竟這些都是 61.223.223.251 09/12 11:11
z635066: 已經被簡化過的concept,麻煩的是硬體加 61.223.223.251 09/12 11:11
z635066: 速那些 61.223.223.251 09/12 11:11
k798976869: 就微分 矩陣亂試參數跑最佳化存起來 123.110.50.249 09/12 11:20
kobe741107: 推 210.242.183.97 09/12 11:20
gigiii1134: 推 42.79.151.225 09/12 11:20
rnmrn: 有料給推 27.51.9.232 09/12 11:21
airmike: 從運算的角度來看就是 一堆矩陣乘法加法 211.20.104.63 09/12 11:21
airmike: 訓練就是微分去找局部最佳解方式 跑跑看 211.20.104.63 09/12 11:22
airmike: 大家都知道多元多次方程式複雜到一個程度 211.20.104.63 09/12 11:22
lovehinata: 外行人懂了 但感覺實操一定很難 223.140.27.187 09/12 11:22
airmike: 最佳化都是在試錯 這也是為什麼訓練算力 211.20.104.63 09/12 11:22
airmike: 要超大超快 不然等好幾天出來結果爛掉 211.20.104.63 09/12 11:23
afflic: 簡單來說就是用線性代數表達人類語言 39.9.73.222 09/12 11:24
airmike: 但是語詞關係接龍不等於建立邏輯關係 雖 211.20.104.63 09/12 11:25
airmike: 然乍看表現很像 但LLM其實有點像教小學生 211.20.104.63 09/12 11:25
airmike: 把上面這段話 和全世界的話都背起來+給它 211.20.104.63 09/12 11:26
airmike: 外掛這個詞最有可能接哪個詞的提示 211.20.104.63 09/12 11:26
airmike: 語言廣度的背誦超過人類 語詞關係的記憶 211.20.104.63 09/12 11:27
ggchioinder: 推優文 42.79.190.105 09/12 11:27
airmike: 超過人類 但是語詞理解建構的能力未知 211.20.104.63 09/12 11:27
afflic: 的確是教小朋友啊 39.9.73.222 09/12 11:29
afflic: 看到爸爸要叫爸爸 39.9.73.222 09/12 11:29
afflic: 看到媽媽要叫媽媽 39.9.73.222 09/12 11:30
afflic: 你小時候怎麼學的就怎麼教電腦 39.9.73.222 09/12 11:30
afflic: 只是把學習的方式用數學模型寫出來 39.9.73.222 09/12 11:30
CGMS: 推 118.231.169.68 09/12 11:30
DreamRush152: 快推不然別人以為我們看不懂 60.251.37.109 09/12 11:33
k798976869: 可是看到猩猩叫泥歌會被強制用規則鎖 123.110.50.249 09/12 11:34
k798976869: 住不能回 123.110.50.249 09/12 11:34
ur83friend: 一開始我以為 是紅茶冰的文 49.214.9.218 09/12 11:36
mudmud: 推個111.253.184.247 09/12 11:37
domoto0101: 完全不知道你在說什麼,淡還是謝謝你 49.218.142.123 09/12 11:38
HKDW: 好怕最後看到胡歌老公 先看留言== 61.222.111.36 09/12 11:40
marke18: 認真推~~ 118.168.159.49 09/12 11:40
white1225: 好猛 211.23.15.221 09/12 11:40
Mylife5566: 寫的很不錯 116.59.172.81 09/12 11:41
night0204: 紅茶冰的文筆跟原po不太一樣 推一個免 36.231.96.31 09/12 11:43
night0204: 得被人笑看不懂 36.231.96.31 09/12 11:43
adsop: 推 106.221.77.60 09/12 11:44
dalipkid: 不就海龍公式而已推一推 123.27.3.158 09/12 11:46
PalmAngels: 推 39.12.72.60 09/12 11:48
abow0807: 不是張阿月給推 49.216.194.24 09/12 11:50
q559az: 優文推 59.125.227.77 09/12 11:51
Reeta: 為什麼我看完三行會先確認不是張阿月?!! 49.216.234.230 09/12 11:52
Reeta: 專業文嚇怕 49.216.234.230 09/12 11:52
meRscliche: push 101.10.81.185 09/12 11:55
Haqua: 推知識文 124.218.76.101 09/12 11:58
lolicon: 這一篇文章值 350 P幣 42.70.221.166 09/12 12:03
monononoke: 本來還期待胡歌老公 110.28.50.188 09/12 12:04
kirinling: 推 118.232.60.107 09/12 12:04
chi2chi2chi2: 推 42.70.141.45 09/12 12:05
Johseagull: 突然一篇認真專業文 嚇到 114.136.58.189 09/12 12:05
shorty696820: 推 66.214.156.186 09/12 12:07
u8510578: 謝謝 122.116.240.69 09/12 12:07
ccc101419: 看不懂,但是長知識了 49.216.129.134 09/12 12:08
iverson414: 認真 49.216.18.94 09/12 12:12
ohsuoh: 嗯嗯 跟我想的一樣 114.37.90.236 09/12 12:14
yuanhy63: 講解得太好了 終於理解token 向量 tran 42.79.180.231 09/12 12:14
yuanhy63: sformer的意義了 非常感謝 我也懂AI了 42.79.180.231 09/12 12:14
lucifiel0121: 認真寫文推223.136.121.234 09/12 12:15
catsondbs: 好清楚明白 182.239.115.1 09/12 12:19
christu: 學了deep learning之後的我:線性代數、 1.126.29.92 09/12 12:25
christu: 線性代數、還是TMD線性代數 1.126.29.92 09/12 12:25
iwillbehere: 推 42.72.211.111 09/12 12:25
flyvegetable: 我懂 但我保證他還是不懂 118.99.2.47 09/12 12:26
hdw: 嗯嗯,跟我想得一樣 122.117.49.105 09/12 12:29
candaptt: 好厲害 39.15.38.186 09/12 12:29
dnkofe: 推223.138.126.131 09/12 12:30
choujai: 優質好文 49.216.19.138 09/12 12:31
a25940638: 推一個 用心 101.8.156.159 09/12 12:34
e65947: 差點以為是啊月= = 39.9.74.19 09/12 12:34
jojozp06: 好厲害 簡單易懂 110.28.106.244 09/12 12:34
BrokenYume: 厲害223.136.120.249 09/12 12:35
ChikanDesu: 你是不是以為你已經簡化了== 111.71.100.79 09/12 12:35
cerberi: 推專業 223.140.126.90 09/12 12:37
momofishj: 111.71.105.25 09/12 12:39
hannspreeXm: 你好會解釋,連小白都聽懂了 163.20.115.251 09/12 12:40
capristarus: 推 1.34.219.130 09/12 12:41
sh981215: 科學家到底怎麼知道kernel放幾層比較好 111.82.47.54 09/12 12:44
sh981215: ? 還是隨便試? 111.82.47.54 09/12 12:44
TKW5566: 好文,可惜沒業業老公 42.73.151.147 09/12 12:44
kfkkg123: 有料 223.140.226.78 09/12 12:46
saso101: 蠻簡單的 可惜問題不夠精確 電腦會回答錯 27.53.131.148 09/12 12:49
saso101: 的答案 27.53.131.148 09/12 12:49
holebro: tokenize跟embedding很好理解 開始訓練tr 114.25.22.75 09/12 12:56
holebro: ansformer就不知道在衝三小了 線性代數 114.25.22.75 09/12 12:56
spursmanu: 懂了 感謝 61.224.121.80 09/12 12:57
alex1888: 推 61.219.173.75 09/12 13:07
wommow: 其實寫得很好耶 只是中間開始擔心後面是.. 118.163.248.6 09/12 13:26
kai2573: 好 49.214.9.213 09/12 13:28
jonothan: 看懂了 感謝 好文推一下 111.82.198.112 09/12 13:29
sharkman1793: 指考數學95分 跟你會不會ai有什麼關118.166.206.238 09/12 13:30
sharkman1793: 聯性?118.166.206.238 09/12 13:30
jccy: 用LLM來解釋英文單字的意思~ 42.72.232.99 09/12 13:32
zsefbhu: 懂,講的真好,甚至跳著看也邏輯清楚 42.72.211.222 09/12 13:32
wind51875: 專業科普推 101.10.245.18 09/12 13:35
etvalen: 文組都能懂,給推 101.10.162.250 09/12 13:35
kkl522608: 好文,我碩一上機器學習,前幾節課講 101.10.94.210 09/12 13:36
kkl522608: 大剛打屁後馬上開始帶KNN、森林CNN 101.10.94.210 09/12 13:36
jccy: 好奇LLM都是用英文做基礎模式,用中文做LLM 42.72.232.99 09/12 13:39
jccy: 結果是一樣的嗎? 42.72.232.99 09/12 13:39
Diesigy: 謝謝分享223.139.121.147 09/12 13:43
Diesigy: 看完突然能理解為何中文模型不好做223.139.121.147 09/12 13:44
Diesigy: 了223.139.121.147 09/12 13:44
doubleperson: 認真文要推 111.83.9.252 09/12 13:56
a24273247: morphology, syntax, semantics, pragm 49.215.46.77 09/12 14:00
a24273247: atics還有computational linguistics 49.215.46.77 09/12 14:00
jasonwuton: 難得優文 謝解釋 42.77.255.166 09/12 14:02
hidelena: 推 42.76.176.166 09/12 14:25
francoisM83: 推 42.78.27.90 09/12 14:27
Dix123: 靠 八卦回來了 118.170.3.144 09/12 14:33
cywooo: 剛做完的碩論也有用到Transformer... 42.72.4.69 09/12 14:41
yangbob1203: 推 已收藏 220.138.50.150 09/12 14:42
Hard1980: 變形金剛 跟 代幣 118.166.214.18 09/12 14:58
bruce10108: 強 114.137.251.76 09/12 15:39
hoverfall: 沒有胡歌老公 差評 49.217.62.176 09/12 15:41
bbo6uis122: 推 61.224.151.103 09/12 16:00
kkkandy: 太認真,害我看一半先跳出去確認ID 220.228.194.56 09/12 16:08
ETTom: 感謝科普優文! 123.194.23.197 09/12 16:21
biore45: 推 已收藏223.140.235.157 09/12 16:30
xhung: 八卦優文 101.10.10.197 09/12 16:44
huabandd: 其實交給gemini 就好了,能夠不斷追問 218.187.86.40 09/12 17:33
huabandd: ,問到你不懂不行啊 218.187.86.40 09/12 17:33
cklan: 推解釋 118.170.10.100 09/12 18:02
TeddyisaBear: 後面那段QKV介紹的很棒推推114.137.188.255 09/12 18:23
cmcmcmcm2: 推 清晰有料 1.172.221.183 09/12 18:37
coldeath: 沒有 39.10.26.145 09/12 18:56
nitero: Embedding 內積 不用 除以 開根號 維度嗎 101.10.143.166 09/12 19:00
vorsss: 長知識了 114.38.111.235 09/12 19:27
younglong: 這篇知識量 滿滿 49.215.241.105 09/12 20:12
selvester: 我一直覺得諷刺的語氣與端正語氣 以及 39.9.67.170 09/12 20:15
selvester: 用端正語氣諷刺 在embedding到底 39.9.67.170 09/12 20:15
selvester: 向量算不算相近 39.9.67.170 09/12 20:15
Lukewear: Good 36.234.199.53 09/12 20:47
Shiva: 長知識優文 114.137.176.34 09/12 22:16
Shiva: transformer會被mamba取代嗎? 114.137.176.34 09/12 22:17
ericwang1017: 簡單清楚的說明,好文 61.231.20.19 09/12 23:07
jack5756: 專業 114.45.66.194 09/13 01:06
ocf951753: 謝謝老師 但真的看不懂 49.216.234.183 09/13 01:14
aaaaajack: 優文 128.54.35.207 09/13 05:31
NotForever: 謝謝解說118.168.169.161 09/13 07:57
srwhite: 感謝 114.36.220.203 09/13 08:43