看板 AI_Art 關於我們 聯絡資訊
https://www.youtube.com/watch?v=qOr5-FrkElk
這部影片介紹了本週(2026年1月11日左右)多項重大的 AI 技術突破,涵蓋影片生成、 換臉、教學代理與硬體機器人等領域。以下是詳細的新聞簡介: 影片生成與編輯技術 Dream IDV (影片換臉): 精準臉部交換:能在影片中精確更換角色臉部,且能同步捕捉眨眼、表情及對嘴 細節。 多功能支援:不僅支援寫實風格,也可用於 3D 動畫及各種影片比例(橫向與縱 向)。已開源並支援 ComfyUI。 Uni Video & Uni Video V2 (可靈團隊): 多模態統一模型:一個模型即可處理影片生成與編輯。 強大編輯功能:可更換影片中的物體(如吉他變魚)、更換服裝或改變整個場景 風格。支援在輸入圖片中直接加入文字指令(如標註哪裡要爆炸)。 Dream Style (影片風格化): 多種風格轉換:可將影片轉為樂高、線條畫、動漫、像素或傳統中國畫風。 優勢:在風格一致性上超越了 Luma 和 Runway 等知名封閉原始碼模型。 Neoverse (4D 世界模型): 3D 互動影片:能從單張圖片估算整個 3D 場景,生成可互動的影片(可自由切 換攝影機視角),甚至能製作「子彈時間」特效。 LTX2 更新: 優化與 GGUF 格式:新增了體積更小的版本(如 12.7GB),支援 AMD GPU 與 CPU 運行。並推出了更易用的 one-to-GP 平台。 AI 代理人與記憶系統 SimpleMem (長效記憶系統): 解決遺忘問題:透過「壓縮意義」、「結構化索引」與「適應性檢索」三步驟, 讓 AI 代理人擁有長效記憶且不浪費 Token。 效能:在準確度與檢索速度上均超越現有方案,已開源。 DeepTutor (開源 AI 教學助手): 主動教學:不同於一般聊天機器人,它能主動引導學習、視覺化解釋複雜概念, 並根據個人程度生成練習題。 功能:可上傳教材並進行網頁深層研究。 3D 模型與深度預測 Infinity Depth: 超高解析度深度圖:能預測圖片深度並生成高達 8K 或 16K 解析度的深度圖, 細節極為精細。 Morph any 3D: 3D 物體平滑變形:能在兩個完全不同的 3D 物體(如不同品種的神奇寶貝、馬 變船)之間生成極其平滑且自然的變換過程。 Gamu (幾何感知擴散): 場景補全:能從幾張照片生成完整的 3D 房間模型,且能自動補全照片中沒拍到 的部分(如天花板)。 機器人與翻譯模型 Unitree H2 & Boston Dynamics Atlas: 強大動力與靈活性:Unitree H2 展示了高難度的飛踢與旋踢;新版 Atlas 則展 示了驚人的全身 360 度旋轉靈活性,超越人類身體限制。 Hunyuan MT (騰訊翻譯模型): 精準快速:極小的參數規模(1.8B/7B)卻能達到與 Gemini 1.5 Pro 相當的準 確度,支援 33 種語言,1.8B 版本可直接在手機等終端設備運行。 Google Gmail 更新 AI 收件匣:Google 開始為美國用戶推出 AI 功能,包括摘要收件匣、AI 代寫郵件 以及自動偵測行程並加入行事曆。 這週的 AI 進展在 開源化 與 多模態控制 方面表現特別突出,尤其是影片編輯與長效記 憶系統的突破非常實用。 -- Gemini3整理 換臉 編輯 單圖生場景很多家在做呢 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.254.215 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1768105025.A.3A3.html 在該影片的 28:44 處提到的 VINO(全稱 Unified Visual Generator with Interleaved Omni-modal Context),是 2026 年初發布的一項重磅 AI 視覺技術。它並 非單純的影片生成器,而是一個將「圖像生成」、「影片生成」與「圖像/影片編輯」完 全統一在單一框架下的模型。 以下是 VINO 的核心補充資訊: VINO:全能視覺生成與編輯器 VINO 的出現打破了以往「圖片模型」與「影片模型」分離的局面,其技術亮點包括: 統一模型架構: 它採用了共享的擴散模型骨幹 (Diffusion Backbone),結合了 視 覺語言模型 (VLM) 與 多模態擴散轉換器 (MMDiT)。這意味著同一個模型可以同時理解文 字、圖片和影片三種輸入,並產出對應的圖片或影片。 交錯式上下文 (Interleaved Context): 這是 VINO 最強大的地方。它能處理「文 字+圖片+影片」的混合指令。例如,你可以給它一段影片和一張特定人物的照片,要求它 「將影片中的主角換成照片中的人」,且能精確保持人物特徵(Identity Preservation )在動態中的連貫性。 精準的指令跟隨與長序列控制: 相比以往的模型,VINO 在執行複雜、多步驟的編輯 指令時(如:「先讓背景變暗,然後在桌上放一個發光的立方體,最後讓角色對著立方體 微笑」)表現更穩定,不容易在處理過程中丟失細節。 靜態與動態的一致性: 它在「照片轉影片」或「影片風格化」時,能確保物體的物 理屬性和人物身份高度統一,不會出現閃爍或角色變形的問題。 多任務通用性: 生成:文字轉圖、文字轉影片。 編輯:局部重繪、風格遷移、物體移除/新增。 參考生成:根據參考圖生成具備相同特徵的全新影片。 總結來說,VINO 代表了視覺 AI 邁向「通用化」的重要一步,讓使用者不再需要為了不 同的創作需求(修圖、剪片、生成)切換不同的 AI 工具,而是在同一個對話框中就能完 成所有的視覺工程。 -- 補上漏掉的部分 ※ 編輯: error405 (114.36.254.215 臺灣), 01/11/2026 12:53:03
error405: 酷酷的大長腿機器人 雖然跟這版沒啥關係 01/11 18:59
rex7788: 終於有本地翻譯了 01/12 00:41
Supasizeit: 說起來應該來試試potplayer 掛ollama 01/12 01:06
Supasizeit: 試了 還是8B好 01/12 02:38
potatotato: ltx2有gguf了歐, 來試試看 01/12 07:54
gijoee: 本機翻譯 8g vram 可以試試 hymt1.5 7b gguf 效果不錯 最 01/12 12:50
gijoee: 好照他提供的範例格式 01/12 12:50
rex7788: 謝分享,晚點來試試看hymt1.5 01/12 14:47