作者error405 (流河=L)
看板AI_Art
標題[閒聊] AI打遊戲 單圖生場景 ..本周AI新聞
時間Sun Dec 28 12:00:13 2025
https://www.youtube.com/watch?v=1IZMwC3oDfc
這部影片整理了本週(2025年12月底,聖誕假期期間)發布的大量 AI 新技術與模型。以
下是各項重點新聞的詳細簡介:
核心 AI 模型與開源 (Open Source)
MiniMax M2.1 (Open Source):
被稱為「最強開源模型」之一,特別擅長 Agentic Coding (代理編碼) 和多步
驟推理。
在 SWE-bench Verified 和多語言編碼測試中,成績超越 Claude 4.5、Gemini
3 Pro 和 GPT-5.2 等閉源模型。
實測強大:能通過單一提示詞(Zero-shot)生成包含物理碰撞與加速機制的
3D 賽車遊戲,或製作帶有互動圖表的複雜財務報告。
本地運行:參數約 229B,需要企業級硬體(如 DGX),但已開源供下載。
GLM-4.7 (Zhipu AI):
另一個強大的開源模型,同樣在編碼、工具使用和複雜推理上表現頂尖。
能生成 Android 操作系統模擬器、功能完整的 SimCity 遊戲、甚至是線上影片
編輯器。
在 Humanities Last Exam (人文學科終極考試) 中得分超越 GPT-5.2。
影片與圖像生成/編輯工具
FlashPortrait (Alibaba TongYi Lab):
能生成無限長度的人物說話影片(Avatar),且保持角色一致性。
速度快 6 倍:比 Live Portrait、Hunyuan 等競品更快,且支援長影片不崩壞
。
已開源代碼和模型,可在消費級 GPU 上運行(10GB VRAM 即可)。
Qwen ImageEdit 2511 (Alibaba):
最新的開源圖像編輯模型(原定 11/25 發布,延期至現在)。
被譽為最強開源圖像編輯器(類似 Nano Banana 的本地版)。
整合了多種 LoRA 功能:內建重新打光 (Relighting)、視角轉換 (Novel View
Synthesis) 和風格遷移。
已有 2-bit 量化版本,可在 8GB VRAM 顯卡上運行。
IMC Cam:
能改變現有影片的攝影機運鏡 (Camera Movement)。
例如將原本固定的鏡頭變成推拉、平移或環繞鏡頭,且保持角色和背景的一致性
。
已開源,但硬體需求極高(需 50GB+ VRAM)。
Dream Montage (ByteDance):
允許使用者上傳多個關鍵影格 (Keyframes) 來精確控制影片內容。
AI 會自動生成影格之間的過渡動畫(In-betweening),讓影片按順序呈現不同
場景(如從眼睛變焦到城市,再到蝴蝶)。
可在 Dreamina 平台上試用。
Generative Refocusing:
事後對照片進行重新對焦 (Refocus) 的 AI。
能修復失焦的照片,或改變景深(如模糊背景製造電影感,或讓模糊的背景變清
晰)。
已開源,模型輕量(約 2.6GB)。
Rico (Region Constraint in Context Generation):
影片版的 Nano Banana,支援透過文字指令對影片進行局部編輯。
能替換影片中的角色(如男人變企鵝)、更改服裝、新增或移除物體,甚至轉換
整個影片的畫風。
預計 2-3 週後開源。
遊戲與 3D 技術
Nitrogen (NVIDIA):
能自主遊玩幾乎所有電子遊戲的 AI Agent。
基於 Vision-Action 模型,透過像人類一樣「看螢幕」和「操作手把」來玩遊
戲,而非讀取遊戲代碼。
訓練數據包含 40,000 小時的遊戲影片,涵蓋 1,000 多種遊戲。
AnyX (Animate Any Character in Any World):
能將任何 3D 角色放入任何 3D 場景中,並透過文字指令控制其動作(如跳舞、
彈豎琴、吃披薩)。
代碼即將開源。
3D Regen:
從單張室內照片生成可編輯的完整 3D 場景。
能識別並重建房間內的所有家具與物件,讓你能在 3D 空間中移動它們。
預計 2026 年 1 月底開源代碼。
Spacia:
具備空間記憶 (Spatial Memory) 的影片生成模型。
生成的場景在時間和空間上保持一致(例如鏡頭移開後再移回來,原本的物體還
在原地),適合生成 VR 場景。
Carry 4D (NVIDIA):
從影片中重建人類與物體互動的 3D 模型。
能精確捕捉手部操作物體的細節,主要用於訓練人形機器人模仿人類動作。
其他
Unitree Robot Demo:展示了新的人形機器人遙操作(Teleoperation)技術,人類
無需穿戴笨重設備即可實時控制機器人動作。
MV Inverse:從一張或多張照片反推場景的物理屬性(如顏色、光照、材質粗糙度、
法線方向)。
這週的更新非常多,特別是在開源領域(MiniMax, GLM-4.7, FlashPortrait, Qwen
ImageEdit)有重大突破,讓個人開發者也能使用頂尖的 AI 工具。
--
Gemini3整理
開源版香蕉 影片版香蕉 ..香蕉大拍賣
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.220.95 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1766894415.A.446.html
推 rex7788: gemini是不是很喜歡用 最強 超越 頂尖這些形容詞 12/28 16:26
→ error405: 強韌 無敵 最強 12/28 16:29
推 Destiny6: minimax是套皮嗎?看百度上的介紹感覺研發跟成長速度也 12/28 16:48
→ Destiny6: 太快... 12/28 16:48
推 Supasizeit: 都阿里系的 12/28 17:02
推 jakkx: 期待3D regen與nv... 12/29 11:29