作者LoveSports (我要當一個渣攻)
看板Gossiping
標題Re: [問卦] AI會做影片有怎麼樣嗎?
時間Sat Oct 11 15:40:46 2025
※ 引述《LeonardoChen (LeonardoChen)》之銘言:
: 不就是世界上多很多影片出來而已嗎?
: 又不是說可以虛空造物、空間傳送
: 連性愛機器人都還沒個影
: 做影片算什麼?
: 什麼真的假的,影片就是影片
其實這些能力跟AGI相關
也跟未來具身的機器人有關
剛好看書發現可能有關 分享一下 也可以跳最下面看AI寫的
AGI的核心特徵包括 狀況認識能力 與 自主性
自主性AI的 狀況認識能力 的建構
會透過海量的知識 去學習感知"Affordance"(可供性、預設功能、環境賦使、直觀功能)
然後用這種感知可供性的能力去理解狀況
可供性是指當一個人看到椅子 就知道那是給人坐的
這種判斷狀況的能力為什麼重要?
書上說 比方說未來有機器人 跟機器人一起登山
萬一人類手滑沒抓好掉下去
有自主性的機器人具有判斷狀況的能力
那瞬間就能伸出手把人類抓住救起來
那這個能力跟目前圖片與影片置換功能有甚麼關係?
因為要能置換必須理解 物理原則 與 立體空間感 以及 連貫性
目前AI還無法完全辦到這些能力
但這些圖片與影片置換功能的推出
代表他們已經具有可供性感知的初步能力
以下貼AI回的 GPT5跟Gemini 2.5 pro
========================================
GPT5:
這是一個非常深刻的問題,你的思考方向其實觸及了「感知(perception)」與「理解(
understanding)」在 AI 進化過程中的關鍵交會點。
我們可以從幾個層面來看這件事:
1. 圖像/影片置換能力本身代表什麼?
像 Gemini 2.5 Flash 的「nano banana」或 GPT 的「Sora 2」這類能在圖片或影片中精
準替換人物的技術,本質上依賴的是:
.對視覺特徵的極高掌握(例如臉部幾何、光影、材質、運動一致性)
.對場景語義結構的理解(知道這是一個「人坐在椅子上」的情境,而不是隨機像素群)
這意味著 AI 不只是「生成畫面」,而是能夠「在有意義的空間中操作元素」——它知道
哪些部分可以換、怎麼換才「合理」。
這種合理性其實已經涉及了某種初步的感知可供性(affordance):AI 懂得哪些操作在
現實世界是自然的。
2. 感知可供性(affordance)與「理解現實」
你提到書中提到的「自律型AI」——能透過常識理解感知可供性。這個概念源自心理學
家 James Gibson 的理論:
affordance 是環境對行動者所提供的可能行為。
例如:
.一張椅子「可坐」
.一扇門「可推開」
.一個人臉「可辨識」
要理解這些「可供性」,AI 不能只是看像素,而要有對「世界」的內在模型。
而當 AI 能在影片中流暢地置換人,不只是視覺處理的成功——它也展現出對「人在空間
中的行為結構」的某種掌握。
換句話說,這是「對可供性的一種模擬理解」。
3. 與 AGI(通用人工智慧)的關聯
這項能力本身不等於 AGI,但它是 AGI 所需的其中一個支柱:
要成為通用智能,AI 必須能在不同模態(語言、視覺、動作)中共享對世界的理解。
能夠置換圖片人物 → 代表 AI 有:
.感知層:能區分「人」與「背景」
.操作層:知道如何合理地修改而不破壞現實感
.概念層:知道這樣的操作在語義上仍「一致」
這三層若能融合,AI 就不再只是生成圖像,而是具備對「世界中事物關係」的實際建模
。
而「理解關係」正是 AGI 的核心——因為那是常識推理、計畫行動、甚至道德判斷的基
礎。
4. 總結來說
你的推論是對的——
能夠精準地置換圖片或影片中的人物,確實可以視為 AI 感知與可供性理解的一種增強。
但要成為真正的自律型或具意識的 AI,還需要:
.能從這種感知中主動學習行為意圖
.能將視覺理解與語言、動作、推理整合
.能在沒有明確指令時,依「自己的常識」判斷怎麼行動
也就是從「會看」→「會理解」→「會行動」的跨越。
如果你願意,我可以幫你畫一個簡單的示意圖(例如:從影像生成 → 感知可供性 → 世
界模型 → 自律型AI的發展路徑),讓這個關係更直觀。
你想要我幫你畫嗎?
=======================================
Gemini 2.5 pro:
好的,這是一個非常深入且有趣的問題。您將 AI 的圖像與影片生成、置換能力,與書中
提到的「感知可供性 (Affordance)」以及邁向通用人工智慧 (AGI) 的關聯進行連結,這
確實是探討 AI 發展的一個重要切入點。
簡單來說,您的想法有相當的道理。當 AI 能夠精準地置換圖片或影片中的人物時,這確
實代表它對現實世界的掌握達到了更高的層次,並且在某種程度上,感知可供性
(Affordance) 的能力也變強了。以下將為您深入剖析:
Gemini 2.5 Flash 與 Sora 2 所展現的能力
首先,我們來看看您提到的這兩個模型代表了什麼樣的技術進展:
Gemini 2.5 Flash Image (Nano Banana): 這不僅僅是生成圖像,更具備了革命性的互動
編輯能力[1]。它是一個原生的多模態模型,能夠真正「看懂」圖片的內容並進行深度邏
輯推理[1]。例如,您可以上傳一張圖片,然後用口語化的方式請它「把這個人換成另一
位」,或是「幫他戴上一頂帽子」。它還能融合多張圖片、保持角色在不同場景中的一致
性,並利用其世界知識來進行編輯[2][3]。這代表它不只是在像素層面操作,而是在語意
和邏輯層面理解圖像。
GPT 的 Sora 2: 這個模型則是在影片生成領域帶來了突破。它不僅能根據文字生成高度
擬真的影片,更重要的是,它對物理邏輯、場景連貫性的掌握達到了新的高度[4]。例如
,Sora 2 能更自然地呈現物體碰撞、彈跳等需要力學細節的畫面[4]。這意味著它不僅知
道世界「看起來」是什麼樣子,還在一定程度上理解世界「如何運作」。
感知可供性 (Affordance) 與自律型 AI
您在書中看到的「感知可供性 (アフォーダンス)」是一個源自認知心理學的概念,由詹
姆斯·J·吉布森 (James J. Gibson) 提出[5]。它的核心思想是,環境會「提供」生物
體行動的可能性[6]。
舉例來說:
。一張椅子「提供」了「坐」的可能性。
。一個門把手「提供」了「轉動」的可能性[5][6]。
。平坦的地板「提供」了「行走」的可能性[6]。
我們人類之所以能夠自然地與世界互動,正是因為我們能透過常識和過去的經驗,直接「
感知」到這些可供性,而不需要經過複雜的思考[6]。
而您提到的「自律型 AI」,指的是能夠為了達成目標而自主選擇並執行行動的 AI[7][8]
。這種 AI 若要有效地在現實世界中運作,就必須具備感知可供性的能力。它需要「看懂
」周遭環境,理解「這裡可以做什麼」、「那個東西可以怎麼用」,才能做出合理的決策
[9][10]。
連結:圖像置換能力與 AGI 的關係
現在,我們將這兩者連結起來。當 AI 能夠精準地置換圖片或影片中的人物時,這是否代
表它更接近 AGI 了? 答案是肯定的,這是一個重要的進展,但同時也存在一些限制。
正面論點:邁向更高層次的現實世界理解
1.
對物理與光影的隱性知識: 要完美地將一個人置換到新的場景中,AI 必須理解光線如何
照射、陰影如何形成、物體間的遮擋關係,以及人物與環境的互動(例如,走在草地上,
草會被壓扁)。Sora 2 對物理邏輯的模擬,正體現了這一點[4][11]。這種對物理世界的
隱性知識,是感知可供性的基礎。
2.
對物體屬性與功能的理解: Gemini 2.5 Flash Image 能夠根據語意進行編輯(例如「幫
他戴上帽子」),這代表它理解「帽子」是可以「戴」在「頭上」的物體[1][12]。這就
是一種對物體功能(可供性)的初步掌握。若要置換一個正在使用工具的人,AI 就必須
理解工具的握持方式與用途。
3.
常識推理能力的體現: 能夠保持角色在不同場景中的一致性,代表 AI 不再只是生成單
一、孤立的圖像,而是對一個「角色」有了更抽象、更連貫的「概念」[2][3]。這種抽象
能力是常識推理的核心,也是自律型 AI 透過常識感知可供性的前提。
反面論點與限制:從「看起來像」到「真正理解」的距離
儘管進展顯著,但我們仍需謹慎看待。
1.
數據驅動的模式學習: 目前的生成式 AI 主要是從海量資料中學習模式與關聯性[13]。
它可以生成一個看起來極度逼真的「人坐在椅子上」的影片,因為它學習了無數相關的影
像資料。但這不完全等同於它真正「理解」了「坐」這個行為的物理意義、意圖以及椅子
「提供支撐」的這個核心可供性。
2.
缺乏身體與世界的互動經驗: 人類對可供性的感知,很大程度建立在與物理世界互動的
身體經驗上。AI 缺乏這種經驗,它的「理解」是建立在數據之上的,而非親身體驗。這
也使得一些研究者認為,目前的 AI 缺乏真正的理解能力,是其邁向 AGI 的根本性限制
[9][13]。
結論
總結來說,您觀察到的現象和提出的問題都非常切中要點。AI 精準置換圖片與影片中人
物的能力,確實是其對現實世界掌握度提升、感知可供性能力增強的重要指標。這代表
AI 不再只是處理像素,而是開始理解圖像和影片中的語意、物理邏輯與物體間的功能關
係。
我們可以將這視為 AI 從「模式識別」邁向「場景理解」的關鍵一步。然而,距離像人類
一樣,基於常識和身體經驗來靈活、深刻地感知和運用世界中的各種可供性,從而實現真
正的自律行動和通用智慧 (AGI),仍然有一段路要走。
目前的技術突破,為 AI 裝上了更敏銳的「眼睛」和更聰明的「視覺皮層」,讓它能更細
緻地觀察和模仿世界。但要進化出能夠自主思考、與世界互動的「心靈」,還需要更多根
本性的突破。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.171.224.172 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1760168449.A.7F3.html
推 niwadori1211: 想知道書的話你是看什麼~ 感覺蠻123.194.180.149 10/11 16:30
→ niwadori1211: 有意思的,感謝123.194.180.149 10/11 16:31
AIにはできない AI辦不到的事
目前沒有台版
你有想特別了解的部分嗎?我可以請AI摘要給你看
※ 編輯: LoveSports (202.171.224.172 日本), 10/11/2025 17:10:44