[問卦] 最近主流是在發展AI視頻生成模型嗎？

作者iLeyaSin365 (365)

看板Gossiping

標題[問卦] 最近主流是在發展AI視頻生成模型嗎？

時間Mon Jan 19 04:47:54 2026

看到零度解說又有一個叫LTX 的東西我已經看不太出來這到底是工具還是品牌了只知道即夢、可靈、sora2 （直到他們是做視頻的）而且現在各廠的反擊就是你出一個很強的我再出一個更快、或者是可以下載自己電腦上生成的容量更小的、需要顯卡低配的。我想這種需要GPU運算的東西還是使用網路線上的就好吧？ AI的領域裡也不是只有生圖、生視頻、影片，前陣子給程序員編碼的Vibe coding工具的模型也是一個項目，但目前主流是生視頻、影片，比如前陣子Banana 與Gemini 3 看來我應該把這一段貼給AI。還有其實我看很多政治上的口水辯論，幾乎也應該直接丟給AI過目，其實這種的變成是一種信仰了，你去花腦筋動口打字似乎速度不快也沒有意義。卦？ -- 順道問一下，ptt有可能有地方給人放自己生成的AI產出的專板嗎 ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.82.211.100 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1768769277.A.3DB.html ※ 編輯: iLeyaSin365 (111.82.211.100 臺灣), 01/19/2026 04:50:14

→ iLeyaSin365: 發現有AI_Art 但人氣少111.82.211.100 01/19 04:51

推 keirto: 支語警告61.56.173.31 01/19 04:55

→ zelkova: 要色色就搞本地端線上要弄編碼解碼之類207.161.49.22 01/19 05:08

→ zelkova: 如果沒特別需求用Gemini或GPT就好207.161.49.22 01/19 05:10

遊戲開發領域正經歷一場從「手工藝」轉向「生成式輔助」的工業革命。你提到的 LTX（特別是 LTX Studio）代表了從單一影片生成轉向「敘事工作流」的進步。目前的 AI 項目已經深入到遊戲開發的每一個神經末梢。為了讓你理清這些工具的類別與模型邏輯，我將按照你感興趣的開發需求，逐一列舉目前最前沿的項目與模型應用（盡可能列出接近 30 個項目）：視覺美術與資產生成 (Image/3D/Texture Gen) 概念美術設計 (Concept Art)：使用 Midjourney v7 或 Flux 等擴散模型（Diffusion Mo dels）。用於在立項初期快速產出不同風格（賽博龐克、中世紀等）的視覺參考圖。角色設計圖 (Character Sheet)：使用 Stable Diffusion + ControlNet。這可以精確控制角色在前、後、側面的比例一致性，直接生成可用於 3D 建模的參考圖。 2D 像素/貼圖生成 (Sprite/Icon)： Leonardo.ai。它提供專門針對遊戲道具圖示（Icons ）和像素藝術（Pixel Art）微調的模型，能生成風格統一的技能圖示。 360度天空盒生成 (Skybox)： Blockade Labs (Skybox AI)。透過簡單的提示詞生成 8K 解析度的全景環境貼圖，直接匯入 Unity 或 Unreal 即可使用。 3D 道具建模 (3D Prop Gen)： Meshy AI 或 Luma AI (Genie)。這屬於「Text-to-3D」模型，能根據文字直接生成帶有網格（Mesh）和貼圖的簡單 3D 物件，如桌子、箱子。高品質 3D 角色建模 (Character Mesh)： Rodin (Hyperhuman)。這類模型專門針對生物構造，能生成具備拓撲結構、可直接進行骨骼綁定的 3D 角色。 PBR 材質貼圖生成 (Texture Gen)： Polycam (Poly) 或 Adobe Firefly。能將普通圖片轉化為具備反照率、法線、粗糙度的 PBR 材質，讓 3D 表面看起來更真實。地圖高度圖生成 (Heightmap)： World Machine（整合 AI 插件）。用於生成大規模地形的高低起伏圖，協助地景（Landscape）系統的自動鋪設。場景物件自動佈置 (Environment Scattering)： Promethean AI。它利用場景語意理解模型，根據「這裡是一個實驗室」的指令，自動在房間內擺放符合邏輯的醫療器材和雜物。動畫與敘事影片 (Video/Animation Gen) 電影級過場動畫 (Cinematics)： OpenAI Sora 或可靈 (Kling)。這類視頻生成模型（Vid eo Gen）具備物理模擬能力，適合製作精美的預渲染宣傳片。分鏡與敘事控制 (Storyboarding)： LTX Studio。它不只是生影片，而是能控制「鏡頭切換」、「角色動作一致性」，是專業級的 AI 導演工具。角色動態捕捉 (Video-to-Motion)： Move.ai 或 Wonder Dynamics。利用視覺模型，將一般手機拍攝的真人動作直接轉化為 3D 骨骼動畫（FBX），省下昂貴的動捕設備。臉部表情與對口型 (Facial Animation)： NVIDIA Audio2Face。這是一個「聲音轉動畫」的模型，給它一段語音，AI 會自動驅動 3D 角色的臉部肌肉動作。 2D 角色呼吸感動畫 (Live2D)： HeyGen 或 Live2D AI 插件。讓 2D 立繪產生眨眼、呼吸和細微的肢體晃動。劇情、腳本與對話系統 (Text/Agent Gen) 世界觀與歷史設定 (Lore Gen)： Claude 3.5 Sonnet 或 GPT-4o。利用大型語言模型（LLM ）構建長達數萬字的編年史、神話體系與地理背景。多線劇情邏輯設計 (Branching Narrative)： ChatDev 或專門的 Narrative AI 插件。協助策劃者梳理複雜的劇情分支，確保邏輯不會出現死循環。動態 NPC 對話 (NPC Dialogue)： Inworld AI 或 Convai。這屬於「智能體模型（Agentic AI）」，NPC 不再讀死稿，而是根據性格設定與玩家即時對談。任務/劇情腳本內容 (Script Writing)：使用 LLM 產出符合遊戲引擎格式的 JSON 或 Yar n Spinner 代碼，直接驅動遊戲內的對話視窗。機制、數值與代碼編寫 (Code/Logic Gen) 遊戲機制與技能平衡 (Mechanics Balancing)： Machinations.io（AI 版）。利用模擬運算預測玩家角色的數值成長，避免某些技能過於強大（OP）。代碼邏輯編寫 (Vibe Coding)： Cursor 或 GitHub Copilot。這對程序員來說是殺手級工具，能快速寫出 C# (Unity) 或 C++ (Unreal) 的功能腳本。著色器代碼生成 (Shader Gen)： Stable Code 或 GPT-4o。能幫開發者寫出 HLSL/GLSL 代碼，實現如「水面波紋」、「火焰燃燒」等視覺特效。遊戲機制原型設計 (Game Ideation)： Ludo.ai。這是一個專門針對遊戲設計師的平台，能分析市場趨勢並生成遊戲玩法（Gameplay）的建議方案。聲音與配樂 (Audio/Music Gen) 角色語音配音 (TTS)： ElevenLabs。目前全球最強的語音合成模型，能模擬極具情感、帶有喘息和語氣詞的角色嗓音。動態環境音效 (SFX)： ElevenLabs Sound Effects 或 AudioLDM。輸入「雪地腳步聲」或「科幻雷射槍射擊」，AI 直接生成高品質的 Wav 檔案。自適應背景音樂 (BGM)： Suno 或 Udio。生成完整的背景樂曲，且能根據遊戲情緒（緊張、戰鬥、平靜）產出不同變奏。測試與營銷 (Testing/QA/Marketing) 自動化 Playtesting： Modl.ai。這是一種強化學習（Reinforcement Learning）模型，會派出一萬個 AI 機器人在遊戲地圖裡亂跑，幫你找地圖漏洞（Bug）或卡位的地方。遊戲介面 (UI/UX) 設計： v0.dev 或 Galileo AI。雖然目前多用於網頁，但已能生成精美的遊戲主選單、背包系統介面圖稿。多國語系在地化 (Localization)： DeepL 或 GPT-4 翻譯引擎。比起傳統翻譯，更能在理解遊戲語境的情況下進行在地化優化。自動生成遊戲預告片 (Trailer Creation)： Runway Gen-3 或 Nano Banana（如你提到的 Gemini 相關技術）。用於生成宣傳素材，特別是需要精準渲染品牌標誌或文字的圖片/短片。 Mod 生態構建 (Community Tools)：利用開源模型（如 Llama 3），讓玩家可以下載模型後，在自己的電腦上生成該遊戲的擴展內容。我的總結與看法你提到的「Nano Banana」和 Gemini 的結合，確實展現了目前 AI 在**高保真度（Fidelit y）**上的進步，尤其是解決了 AI 以前最怕的「文字渲染」和「精確構圖」問題。未來的遊戲開發將會是「組裝式」的：我們不再需要從零開始畫每一片草葉、寫每一行 NPC 對話。我們更像是一個**「創意總監」**，使用不同的 AI 模型產出原料，再到 Unity/Unreal 裡面進行最後的調優與串聯。這就是為什麼像 LTX 這種整合工作流的工具會越來越重要的原因。 ※ 編輯: iLeyaSin365 (111.82.211.100 臺灣), 01/19/2026 05:12:15

→ raisn: 視頻跟影片差在哪 101.8.224.107 01/19 05:14

→ zelkova: 還有LTX定位是第一款開源影音模型 207.161.49.22 01/19 05:14

→ zelkova: 跟閉源的Sora2或Wan2.5也有明顯差距 207.161.49.22 01/19 05:14

→ error405: wan2.2就開源了220.136.197.234 01/19 05:22

→ adios881: 你觀察到的行為是反應多模型合作的趨勢 162.120.248.94 01/19 05:41

→ adios881: 原本的AI是你叫他生答案他生文字 162.120.248.94 01/19 05:41

→ adios881: 你叫他畫圖片他畫圖片作曲生音樂 162.120.248.94 01/19 05:41

→ adios881: 進入202425之後就往多模型走 162.120.248.94 01/19 05:41

→ adios881: 也就生成一個水豚超人大戰陰屍路電影 162.120.248.94 01/19 05:42

→ adios881: AI自己統合多個模型台詞圖片生影片配樂 162.120.248.94 01/19 05:42

→ adios881: 你看到的影片就是他最好的呈現方式 162.120.248.94 01/19 05:42

→ adios881: 所以你就覺得都是影片模型 162.120.248.94 01/19 05:42

→ adios881: 但原理是多模型是現在AI主流 162.120.248.94 01/19 05:42

→ adios881: 不是比deepseekgeminigpt問答誰厲害 162.120.248.94 01/19 05:45

→ adios881: 現在趨勢是在看誰能把多模型整合的最好 162.120.248.94 01/19 05:45

→ zelkova: wan2.2不是影音模型 207.161.49.22 01/19 06:11

→ zelkova: 就單純的影片模型頂多聲音驅動影片 207.161.49.22 01/19 06:13

→ zelkova: 真正的影音模型是生成影片同時帶有聲音 207.161.49.22 01/19 06:16

推 andre9: LTX硬體要求非常高不過我現在等AGI 61.222.158.103 01/19 07:43

→ AoWsL: 因為AI影音能見度最高操作難度最低你做一 111.71.24.78 01/19 08:44

→ AoWsL: 堆工具不見得賣的出去現在是強調變現能力 111.71.24.78 01/19 08:44

→ AoWsL: 所有二次產品都是 111.71.24.78 01/19 08:44

→ hn022: 一般人要的只是寫幾個需求，然後一鍵生成 101.10.161.77 01/19 09:46

→ hn022: 看成果 101.10.161.77 01/19 09:46

噓 windnia: 最近主流是在發展抹黑閩南生成模型嗎？ 220.132.33.195 01/19 09:55