Re: [問卦] AI會做影片有怎麼樣嗎？

作者LoveSports (我要當一個渣攻)

看板Gossiping

標題Re: [問卦] AI會做影片有怎麼樣嗎？

時間Sat Oct 11 15:40:46 2025

※ 引述《LeonardoChen (LeonardoChen)》之銘言： : 不就是世界上多很多影片出來而已嗎？ : 又不是說可以虛空造物、空間傳送 : 連性愛機器人都還沒個影 : 做影片算什麼？ : 什麼真的假的，影片就是影片其實這些能力跟AGI相關也跟未來具身的機器人有關剛好看書發現可能有關分享一下也可以跳最下面看AI寫的 AGI的核心特徵包括狀況認識能力與自主性自主性AI的狀況認識能力的建構會透過海量的知識去學習感知"Affordance"(可供性、預設功能、環境賦使、直觀功能) 然後用這種感知可供性的能力去理解狀況可供性是指當一個人看到椅子就知道那是給人坐的這種判斷狀況的能力為什麼重要？書上說比方說未來有機器人跟機器人一起登山萬一人類手滑沒抓好掉下去有自主性的機器人具有判斷狀況的能力那瞬間就能伸出手把人類抓住救起來那這個能力跟目前圖片與影片置換功能有甚麼關係？因為要能置換必須理解物理原則與立體空間感以及連貫性目前AI還無法完全辦到這些能力但這些圖片與影片置換功能的推出代表他們已經具有可供性感知的初步能力以下貼AI回的 GPT5跟Gemini 2.5 pro ======================================== GPT5: 這是一個非常深刻的問題，你的思考方向其實觸及了「感知（perception）」與「理解（ understanding）」在 AI 進化過程中的關鍵交會點。我們可以從幾個層面來看這件事： 1. 圖像／影片置換能力本身代表什麼？像 Gemini 2.5 Flash 的「nano banana」或 GPT 的「Sora 2」這類能在圖片或影片中精準替換人物的技術，本質上依賴的是：．對視覺特徵的極高掌握（例如臉部幾何、光影、材質、運動一致性）．對場景語義結構的理解（知道這是一個「人坐在椅子上」的情境，而不是隨機像素群）這意味著 AI 不只是「生成畫面」，而是能夠「在有意義的空間中操作元素」——它知道哪些部分可以換、怎麼換才「合理」。這種合理性其實已經涉及了某種初步的感知可供性（affordance）：AI 懂得哪些操作在現實世界是自然的。 2. 感知可供性（affordance）與「理解現實」你提到書中提到的「自律型AI」——能透過常識理解感知可供性。這個概念源自心理學家 James Gibson 的理論： affordance 是環境對行動者所提供的可能行為。例如：．一張椅子「可坐」．一扇門「可推開」．一個人臉「可辨識」要理解這些「可供性」，AI 不能只是看像素，而要有對「世界」的內在模型。而當 AI 能在影片中流暢地置換人，不只是視覺處理的成功——它也展現出對「人在空間中的行為結構」的某種掌握。換句話說，這是「對可供性的一種模擬理解」。 3. 與 AGI（通用人工智慧）的關聯這項能力本身不等於 AGI，但它是 AGI 所需的其中一個支柱：要成為通用智能，AI 必須能在不同模態（語言、視覺、動作）中共享對世界的理解。能夠置換圖片人物 → 代表 AI 有：．感知層：能區分「人」與「背景」．操作層：知道如何合理地修改而不破壞現實感．概念層：知道這樣的操作在語義上仍「一致」這三層若能融合，AI 就不再只是生成圖像，而是具備對「世界中事物關係」的實際建模。而「理解關係」正是 AGI 的核心——因為那是常識推理、計畫行動、甚至道德判斷的基礎。 4. 總結來說你的推論是對的—— 能夠精準地置換圖片或影片中的人物，確實可以視為 AI 感知與可供性理解的一種增強。但要成為真正的自律型或具意識的 AI，還需要：．能從這種感知中主動學習行為意圖．能將視覺理解與語言、動作、推理整合．能在沒有明確指令時，依「自己的常識」判斷怎麼行動也就是從「會看」→「會理解」→「會行動」的跨越。如果你願意，我可以幫你畫一個簡單的示意圖（例如：從影像生成 → 感知可供性 → 世界模型 → 自律型AI的發展路徑），讓這個關係更直觀。你想要我幫你畫嗎？ ======================================= Gemini 2.5 pro: 好的，這是一個非常深入且有趣的問題。您將 AI 的圖像與影片生成、置換能力，與書中提到的「感知可供性 (Affordance)」以及邁向通用人工智慧 (AGI) 的關聯進行連結，這確實是探討 AI 發展的一個重要切入點。簡單來說，您的想法有相當的道理。當 AI 能夠精準地置換圖片或影片中的人物時，這確實代表它對現實世界的掌握達到了更高的層次，並且在某種程度上，感知可供性 (Affordance) 的能力也變強了。以下將為您深入剖析： Gemini 2.5 Flash 與 Sora 2 所展現的能力首先，我們來看看您提到的這兩個模型代表了什麼樣的技術進展： Gemini 2.5 Flash Image (Nano Banana): 這不僅僅是生成圖像，更具備了革命性的互動編輯能力[1]。它是一個原生的多模態模型，能夠真正「看懂」圖片的內容並進行深度邏輯推理[1]。例如，您可以上傳一張圖片，然後用口語化的方式請它「把這個人換成另一位」，或是「幫他戴上一頂帽子」。它還能融合多張圖片、保持角色在不同場景中的一致性，並利用其世界知識來進行編輯[2][3]。這代表它不只是在像素層面操作，而是在語意和邏輯層面理解圖像。 GPT 的 Sora 2: 這個模型則是在影片生成領域帶來了突破。它不僅能根據文字生成高度擬真的影片，更重要的是，它對物理邏輯、場景連貫性的掌握達到了新的高度[4]。例如，Sora 2 能更自然地呈現物體碰撞、彈跳等需要力學細節的畫面[4]。這意味著它不僅知道世界「看起來」是什麼樣子，還在一定程度上理解世界「如何運作」。感知可供性 (Affordance) 與自律型 AI 您在書中看到的「感知可供性 (アフォーダンス)」是一個源自認知心理學的概念，由詹姆斯·J·吉布森 (James J. Gibson) 提出[5]。它的核心思想是，環境會「提供」生物體行動的可能性[6]。舉例來說：。一張椅子「提供」了「坐」的可能性。。一個門把手「提供」了「轉動」的可能性[5][6]。。平坦的地板「提供」了「行走」的可能性[6]。我們人類之所以能夠自然地與世界互動，正是因為我們能透過常識和過去的經驗，直接「感知」到這些可供性，而不需要經過複雜的思考[6]。而您提到的「自律型 AI」，指的是能夠為了達成目標而自主選擇並執行行動的 AI[7][8] 。這種 AI 若要有效地在現實世界中運作，就必須具備感知可供性的能力。它需要「看懂」周遭環境，理解「這裡可以做什麼」、「那個東西可以怎麼用」，才能做出合理的決策 [9][10]。連結：圖像置換能力與 AGI 的關係現在，我們將這兩者連結起來。當 AI 能夠精準地置換圖片或影片中的人物時，這是否代表它更接近 AGI 了？答案是肯定的，這是一個重要的進展，但同時也存在一些限制。正面論點：邁向更高層次的現實世界理解 1. 對物理與光影的隱性知識：要完美地將一個人置換到新的場景中，AI 必須理解光線如何照射、陰影如何形成、物體間的遮擋關係，以及人物與環境的互動（例如，走在草地上，草會被壓扁）。Sora 2 對物理邏輯的模擬，正體現了這一點[4][11]。這種對物理世界的隱性知識，是感知可供性的基礎。 2. 對物體屬性與功能的理解： Gemini 2.5 Flash Image 能夠根據語意進行編輯（例如「幫他戴上帽子」），這代表它理解「帽子」是可以「戴」在「頭上」的物體[1][12]。這就是一種對物體功能（可供性）的初步掌握。若要置換一個正在使用工具的人，AI 就必須理解工具的握持方式與用途。 3. 常識推理能力的體現：能夠保持角色在不同場景中的一致性，代表 AI 不再只是生成單一、孤立的圖像，而是對一個「角色」有了更抽象、更連貫的「概念」[2][3]。這種抽象能力是常識推理的核心，也是自律型 AI 透過常識感知可供性的前提。反面論點與限制：從「看起來像」到「真正理解」的距離儘管進展顯著，但我們仍需謹慎看待。 1. 數據驅動的模式學習：目前的生成式 AI 主要是從海量資料中學習模式與關聯性[13]。它可以生成一個看起來極度逼真的「人坐在椅子上」的影片，因為它學習了無數相關的影像資料。但這不完全等同於它真正「理解」了「坐」這個行為的物理意義、意圖以及椅子「提供支撐」的這個核心可供性。 2. 缺乏身體與世界的互動經驗：人類對可供性的感知，很大程度建立在與物理世界互動的身體經驗上。AI 缺乏這種經驗，它的「理解」是建立在數據之上的，而非親身體驗。這也使得一些研究者認為，目前的 AI 缺乏真正的理解能力，是其邁向 AGI 的根本性限制 [9][13]。結論總結來說，您觀察到的現象和提出的問題都非常切中要點。AI 精準置換圖片與影片中人物的能力，確實是其對現實世界掌握度提升、感知可供性能力增強的重要指標。這代表 AI 不再只是處理像素，而是開始理解圖像和影片中的語意、物理邏輯與物體間的功能關係。我們可以將這視為 AI 從「模式識別」邁向「場景理解」的關鍵一步。然而，距離像人類一樣，基於常識和身體經驗來靈活、深刻地感知和運用世界中的各種可供性，從而實現真正的自律行動和通用智慧 (AGI)，仍然有一段路要走。目前的技術突破，為 AI 裝上了更敏銳的「眼睛」和更聰明的「視覺皮層」，讓它能更細緻地觀察和模仿世界。但要進化出能夠自主思考、與世界互動的「心靈」，還需要更多根本性的突破。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 202.171.224.172 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1760168449.A.7F3.html

推 niwadori1211: 想知道書的話你是看什麼～感覺蠻123.194.180.149 10/11 16:30

→ niwadori1211: 有意思的，感謝123.194.180.149 10/11 16:31

AIにはできない AI辦不到的事目前沒有台版你有想特別了解的部分嗎？我可以請AI摘要給你看 ※ 編輯: LoveSports (202.171.224.172 日本), 10/11/2025 17:10:44