[閒聊] 通用翻譯模型 LTX更新 ..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 通用翻譯模型 LTX更新 ..本週AI新聞

時間Sun Jan 11 12:17:03 2026

https://www.youtube.com/watch?v=qOr5-FrkElk

這部影片介紹了本週（2026年1月11日左右）多項重大的 AI 技術突破，涵蓋影片生成、換臉、教學代理與硬體機器人等領域。以下是詳細的新聞簡介：影片生成與編輯技術 Dream IDV (影片換臉)：精準臉部交換：能在影片中精確更換角色臉部，且能同步捕捉眨眼、表情及對嘴細節。多功能支援：不僅支援寫實風格，也可用於 3D 動畫及各種影片比例（橫向與縱向）。已開源並支援 ComfyUI。 Uni Video & Uni Video V2 (可靈團隊)：多模態統一模型：一個模型即可處理影片生成與編輯。強大編輯功能：可更換影片中的物體（如吉他變魚）、更換服裝或改變整個場景風格。支援在輸入圖片中直接加入文字指令（如標註哪裡要爆炸）。 Dream Style (影片風格化)：多種風格轉換：可將影片轉為樂高、線條畫、動漫、像素或傳統中國畫風。優勢：在風格一致性上超越了 Luma 和 Runway 等知名封閉原始碼模型。 Neoverse (4D 世界模型)： 3D 互動影片：能從單張圖片估算整個 3D 場景，生成可互動的影片（可自由切換攝影機視角），甚至能製作「子彈時間」特效。 LTX2 更新：優化與 GGUF 格式：新增了體積更小的版本（如 12.7GB），支援 AMD GPU 與 CPU 運行。並推出了更易用的 one-to-GP 平台。 AI 代理人與記憶系統 SimpleMem (長效記憶系統)：解決遺忘問題：透過「壓縮意義」、「結構化索引」與「適應性檢索」三步驟，讓 AI 代理人擁有長效記憶且不浪費 Token。效能：在準確度與檢索速度上均超越現有方案，已開源。 DeepTutor (開源 AI 教學助手)：主動教學：不同於一般聊天機器人，它能主動引導學習、視覺化解釋複雜概念，並根據個人程度生成練習題。功能：可上傳教材並進行網頁深層研究。 3D 模型與深度預測 Infinity Depth：超高解析度深度圖：能預測圖片深度並生成高達 8K 或 16K 解析度的深度圖，細節極為精細。 Morph any 3D： 3D 物體平滑變形：能在兩個完全不同的 3D 物體（如不同品種的神奇寶貝、馬變船）之間生成極其平滑且自然的變換過程。 Gamu (幾何感知擴散)：場景補全：能從幾張照片生成完整的 3D 房間模型，且能自動補全照片中沒拍到的部分（如天花板）。機器人與翻譯模型 Unitree H2 & Boston Dynamics Atlas：強大動力與靈活性：Unitree H2 展示了高難度的飛踢與旋踢；新版 Atlas 則展示了驚人的全身 360 度旋轉靈活性，超越人類身體限制。 Hunyuan MT (騰訊翻譯模型)：精準快速：極小的參數規模（1.8B/7B）卻能達到與 Gemini 1.5 Pro 相當的準確度，支援 33 種語言，1.8B 版本可直接在手機等終端設備運行。 Google Gmail 更新 AI 收件匣：Google 開始為美國用戶推出 AI 功能，包括摘要收件匣、AI 代寫郵件以及自動偵測行程並加入行事曆。這週的 AI 進展在開源化與多模態控制方面表現特別突出，尤其是影片編輯與長效記憶系統的突破非常實用。 -- Gemini3整理換臉編輯單圖生場景很多家在做呢 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.254.215 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1768105025.A.3A3.html 在該影片的 28:44 處提到的 VINO（全稱 Unified Visual Generator with Interleaved Omni-modal Context），是 2026 年初發布的一項重磅 AI 視覺技術。它並非單純的影片生成器，而是一個將「圖像生成」、「影片生成」與「圖像/影片編輯」完全統一在單一框架下的模型。以下是 VINO 的核心補充資訊： VINO：全能視覺生成與編輯器 VINO 的出現打破了以往「圖片模型」與「影片模型」分離的局面，其技術亮點包括：統一模型架構：它採用了共享的擴散模型骨幹 (Diffusion Backbone)，結合了視覺語言模型 (VLM) 與多模態擴散轉換器 (MMDiT)。這意味著同一個模型可以同時理解文字、圖片和影片三種輸入，並產出對應的圖片或影片。交錯式上下文 (Interleaved Context)：這是 VINO 最強大的地方。它能處理「文字+圖片+影片」的混合指令。例如，你可以給它一段影片和一張特定人物的照片，要求它「將影片中的主角換成照片中的人」，且能精確保持人物特徵（Identity Preservation ）在動態中的連貫性。精準的指令跟隨與長序列控制：相比以往的模型，VINO 在執行複雜、多步驟的編輯指令時（如：「先讓背景變暗，然後在桌上放一個發光的立方體，最後讓角色對著立方體微笑」）表現更穩定，不容易在處理過程中丟失細節。靜態與動態的一致性：它在「照片轉影片」或「影片風格化」時，能確保物體的物理屬性和人物身份高度統一，不會出現閃爍或角色變形的問題。多任務通用性：生成：文字轉圖、文字轉影片。編輯：局部重繪、風格遷移、物體移除/新增。參考生成：根據參考圖生成具備相同特徵的全新影片。總結來說，VINO 代表了視覺 AI 邁向「通用化」的重要一步，讓使用者不再需要為了不同的創作需求（修圖、剪片、生成）切換不同的 AI 工具，而是在同一個對話框中就能完成所有的視覺工程。 -- 補上漏掉的部分 ※ 編輯: error405 (114.36.254.215 臺灣), 01/11/2026 12:53:03

→ error405: https://www.youtube.com/watch?v=T4ekeXQ2B6Q 01/11 18:58

→ error405: 酷酷的大長腿機器人雖然跟這版沒啥關係 01/11 18:59

推 rex7788: 終於有本地翻譯了 01/12 00:41

推 Supasizeit: 說起來應該來試試potplayer 掛ollama 01/12 01:06

→ Supasizeit: 試了還是8B好 01/12 02:38

推 potatotato: ltx2有gguf了歐, 來試試看 01/12 07:54

→ error405: https://www.youtube.com/watch?v=HMC-s_zkNyE 01/12 10:40

推 gijoee: 本機翻譯 8g vram 可以試試 hymt1.5 7b gguf 效果不錯最 01/12 12:50

→ gijoee: 好照他提供的範例格式 01/12 12:50

推 rex7788: 謝分享，晚點來試試看hymt1.5 01/12 14:47