Re: [閒聊] Neuro真的有辦法做到理解圖像嗎

作者aria0520 (紫)

看板C_Chat

標題Re: [閒聊] Neuro真的有辦法做到理解圖像嗎

時間Sun Dec 31 14:29:48 2023

大型語言模型本質上是文字接龍你說的話會通過tokenizer切成很多token後餵給模型讓他預測下一個機率最高的字當input是圖像時你需要用一個資訊壓縮模型把圖也壓成一串token 接下來做的事情就一樣了把這串濃縮feature token餵給模型搭配你說的其他話來預測下一個字重複到出現一個完整的回答為止 input是圖像時的難點是那個資訊壓縮模型一般來說這種模型是透過海量的圖片-文字描述pair訓練而成例如一張拆彈遊戲的圖片和一段文字"這張圖裡包含了一張桌子一個炸彈顏色..." 但除了圖片解析度有限以外文字畢竟是一維資訊難以精準描述二維的圖片頂多你能搭配一些傳統CV的OCR資訊一起餵給語言模型不然就是要往Gemini這種原生多模態模型或甚至擺脫文字接龍框架世界模型方向走學界有一派覺得語言模型有其極限這就是其中一個原因畢竟人類不是只靠文字理解世界 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 185.213.82.44 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1704004190.A.EE5.html

推 chenyeart: 看Neuro會玩geoguessr，Vedal應該克服了? 12/31 15:27

→ spfy: 他也是想辦法把這些東西串起來吧這些演算法和模型都不是 12/31 15:29

→ spfy: 一個人或一個小團隊能做到的 12/31 15:30

推 bitcch: GPT才是文字接龍但LLM也不止GPT一種 12/31 15:42