作者aria0520 (紫)
看板C_Chat
標題Re: [閒聊] Neuro真的有辦法做到理解圖像嗎
時間Sun Dec 31 14:29:48 2023
大型語言模型本質上是文字接龍
你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字
當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token
接下來做的事情就一樣了 把這串濃縮feature token餵給模型
搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止
input是圖像時的難點是那個資訊壓縮模型
一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成
例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..."
但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片
頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型
不然就是要往Gemini這種原生多模態模型
或甚至擺脫文字接龍框架 世界模型方向走
學界有一派覺得語言模型有其極限 這就是其中一個原因
畢竟人類不是只靠文字理解世界
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1704004190.A.EE5.html
推 chenyeart: 看Neuro會玩geoguessr,Vedal應該克服了? 12/31 15:27
→ spfy: 他也是想辦法把這些東西串起來吧 這些演算法和模型都不是 12/31 15:29
→ spfy: 一個人或一個小團隊能做到的 12/31 15:30
推 bitcch: GPT才是文字接龍 但LLM也不止GPT一種 12/31 15:42