[閒聊] Gemini3 Flash,單圖生3D模型..本周AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] Gemini3 Flash,單圖生3D模型..本周AI新聞

時間Sun Dec 21 12:06:10 2025

https://www.youtube.com/watch?v=JxrVtFER1Q8

這部影片介紹了許多本週（2025年12月21日左右）發布的 AI 新技術與模型，內容相當豐富。以下是各項新東西的詳細簡介：核心大模型與開源模型 Xiaomi MiMo V2 Flash (小米)：被稱為目前最強的開源模型，在 Agentic Coding（代理編碼）和推理任務上表現超越了 DeepSeek 和 Kimi k2 Thinking。這是一個混合專家模型 (MoE)，總參數 309B，但在運行時僅激活 15B，因此效率極高。在多個基準測試（如 SWE-bench Verified）中表現接近 GPT-5 和 Claude 4.5 等閉源模型。 Gemini 3 Flash (Google)： Google 發布的高效率模型，是目前性價比最高的選擇。速度比 Gemini 2.5 Pro 快 3 倍，成本僅為 Gemini 3 Pro 的四分之一，但性能依然強大，在 Artificial Analysis 排行榜上名列第二（僅次於 GPT-5.2 和 Gemini 3 Pro）。具備 100 萬 token 的上下文窗口，並在多模態（影像、音訊理解）表現出色。影片生成與編輯工具 Hunyuan World 1.5 (Tencent)：一個即時 (Real-time) 3D 世界生成器。不像傳統遊戲是預先設計好的，它是隨著你的移動（使用 WASD 鍵）即時生成場景。支援透過提示詞即時改變環境（例如「木頭冒煙」、「城堡失火」、「遠處爆炸」）。已開源，且硬體需求相對較低（只需 14GB VRAM）。 SeaDance 1.5 Pro (ByteDance)：字節跳動推出的影片生成模型，被評價為比 Alibaba 的 Wan 2.6 更強。在影片一致性、美學和動作流暢度上表現優異，且支援生成帶有音訊的影片。 Wan 2.6 (Alibaba)： Wan 2.5 的小幅升級版，新增了 Reference to Video 功能（可上傳參考影片來生成新影片）。雖然支援音訊生成，但在整體表現上被評價為不如 SeaDance 1.5 Pro，且目前似乎是閉源的。 RealVideo (Zhipu AI / GLM Team)：即時人物說話影片生成器。能根據輸入的文字和一張照片，即時生成說話的 Avatar 影片，延遲僅約 2 秒。已開源，基於 CogVideoX 模型架構。 Long V2：專門解決 AI 影片長度限制的問題，能生成長達 5 分鐘的超長影片，且保持場景連貫性（大多現有模型僅能生成 10 秒左右）。已開源，支援在消費級 GPU 上運行（需 14GB VRAM）。 Turbo Diffusion：一個加速工具，能將本地影片生成速度提升 100 到 200 倍。例如生成 5 秒影片僅需 2 秒（原先可能需數分鐘），且幾乎不犧牲畫質。已開源，適用於 Wan 2.1/2.2 等模型。 Ray 3 Modify (Luma Labs)：強大的影片重繪/修改工具。能將現有影片轉換風格（如夜間模式、冬季），或無縫替換影片中的角色（ Character Swap），甚至能將你自己演出的影片轉換為電影場景。 EgoX：能將第三人稱視角的影片轉換為第一人稱視角 (Egocentric) 的 AI。例如將一段踢球的影片，轉換成「你自己正在踢球」的主觀鏡頭。圖像與 3D 生成 Trellis 2 (Microsoft)：強大的開源 3D 模型生成器，從單張圖片即可生成極高品質、細節豐富的 3D 模型（包括毛髮、複雜結構）。採用了獨特的 "Oxels" 技術（結合幾何與材質的 3D 像素）。 Stereo Space：能將普通 2D 照片轉換為 3D 立體照片（需配戴紅藍 3D 眼鏡觀看，或使用交叉眼觀看法）。能生成具有深度感的立體場景。 Qwen Image Layered (Alibaba)：能將一張圖片拆解為多個透明圖層（類似 Photoshop 的圖層）。允許你單獨編輯背景、角色或文字，而不影響其他部分。 SVG Text-to-Image (Kling)：一種不使用 VAE (變分自編碼器) 的新型圖像生成架構，直接在視覺空間生成圖像。雖然目前是實驗性質，但證明了不依賴 Latent Space 也能生成不錯的圖像。 Flux 2 Max (Black Forest Labs)： Flux 系列最強模型，但在發布當天剛好撞上 OpenAI 的 GPT Image 1.5，且在評測中略遜於 GPT Image 1.5 和 Nano Banana Pro (Google Imagen 3)。角色動畫與 Avatar Scale：目前最強的開源角色動畫工具。能將參考影片中的動作（甚至複雜的迴旋踢、跳舞）完美遷移到任何角色（包括動物、動漫人物）身上，且支援多角色同時動畫化。透過提取 3D 姿勢 (3D Pose) 而非僅 2D 姿勢來提高準確度。 LongCat Video Avatar (Meituan)：開源的照片轉說話/唱歌影片工具。只需一張照片 + 音訊，就能生成極其自然、表情豐富（甚至能大笑、呼吸）的影片，被認為是目前該領域最強的開源工具。其他工具 VRBGX (Adobe)：影片材質編輯工具。能將影片分解為 Albedo（顏色）、Normal（表面紋理）、 Material（材質）和 Irradiance（光照）四個屬性，並允許你單獨修改它們（例如把沙發改成金屬材質，或改變影片的光照環境）。這週的 AI 進展涵蓋了從基礎模型、3D 生成、即時互動世界到影片編輯的全方位突破，且許多強大的工具（如 Xiaomi MiMo, Trellis 2, Scale）都是開源的。 -- Gemini整理一直進步一直爽 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.198.21 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1766289972.A.71B.html

→ error405: 嗯他說讓wan2.2快一百倍? 12/21 12:12

推 Supasizeit: 那是沒開任何加速下比 12/21 14:09

→ necrophagist: 覺得吹太大 12/21 14:49

推 patvessel: 看了一下應該是self forcing機制 12/21 16:58

→ patvessel: 說不犧牲畫質..對但是也不對因為會變成別的東西 12/21 16:58

→ patvessel: 而不是降低畫質 12/21 16:58

推 patvessel: 從範例影片就能看的出來試用後的結果和原本的影片幾乎 12/21 17:06

→ patvessel: 完全不同而且運鏡和動態範圍縮減 12/21 17:06

→ patvessel: 這就是Self-forcing的特點之一可能還他配蒸餾和其他 12/21 17:07

→ patvessel: 注意力加速或量化手段 12/21 17:07