精華區beta C_Chat 關於我們 聯絡資訊
大型語言模型本質上是文字接龍 你說的話會通過tokenizer切成很多token後餵給模型 讓他預測下一個機率最高的字 當input是圖像時 你需要用一個資訊壓縮模型 把圖也壓成一串token 接下來做的事情就一樣了 把這串濃縮feature token餵給模型 搭配你說的其他話 來預測下一個字 重複到出現一個完整的回答為止 input是圖像時的難點是那個資訊壓縮模型 一般來說 這種模型是透過海量的圖片-文字描述pair訓練而成 例如 一張拆彈遊戲的圖片 和一段文字"這張圖裡包含了一張桌子 一個炸彈 顏色..." 但除了圖片解析度有限以外 文字畢竟是一維資訊 難以精準描述二維的圖片 頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型 不然就是要往Gemini這種原生多模態模型 或甚至擺脫文字接龍框架 世界模型方向走 學界有一派覺得語言模型有其極限 這就是其中一個原因 畢竟人類不是只靠文字理解世界 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1704004190.A.EE5.html
chenyeart: 看Neuro會玩geoguessr,Vedal應該克服了? 12/31 15:27
spfy: 他也是想辦法把這些東西串起來吧 這些演算法和模型都不是 12/31 15:29
spfy: 一個人或一個小團隊能做到的 12/31 15:30
bitcch: GPT才是文字接龍 但LLM也不止GPT一種 12/31 15:42