作者error405 (流河=L)
看板AI_Art
標題[閒聊] 實時AI語音 AI直播 互動場景..本週AI新聞
時間Sun Jan 25 12:31:42 2026
https://www.youtube.com/watch?v=BYPlfLQm0CQ
這部影片整理了 2026 年 1 月底多項突破性的 AI 技術新聞,涵蓋了 3D 場景重建、影
片處理、語音技術、實時影片生成等多個領域。以下是詳細的簡介:
3D 場景與動作生成
VIGA (Vision as Inverse Graphics Agent):這是一個能將單張圖片轉化為
Blender 3D 場景的 AI 代理。它不只是生成靜態模型,還能讓場景具備互動性(例如在
重建的場景中丟球,它能模擬撞擊與破碎效果)[01:02]。
Franken Motion:能根據文字指令生成極其複雜的人體動作序列。它能處理細微的動
作(如邊走邊坐下、繫鞋帶、換手拿東西),並可精確控制各個肢體部位 [27:14]。
Motion 3-to-4:能將影片中的角色(如跳舞的熊貓或真人)轉換為 4D 場景(即具
備時間維度的 3D 模型),並支援動作轉移技術 [35:15]。
影片處理與動畫技術
Video Mama:具備強大去背與遮罩(Masking)能力,能精確分離出複雜物體(如飛
揚的頭髮、煙霧、蒲公英細毛等),即使在快速移動的影片中也能保持極高的透明度與準
確度 [02:35]。
Omni Transfer:這是一個全能的影片編輯工具,能將參考影片中的 視覺特效 (VFX)
、人物表情與動作、甚至是 攝影機運鏡 轉移到目標影片中 [15:23]。
Codance (Alibaba):能同時控制一張圖片中的多個角色進行舞蹈或運動,且不限於
人類比例,卡通人物或怪物也能呈現流暢的一致性 [11:58]。
語音與語言技術
Persona Plex (NVIDIA):免費開源的實時對話 AI,具備極佳的幽默感與角色扮演能
力,能勝任專業的客戶服務或醫療診所櫃檯工作,對話極其自然流暢 [06:50]。
Lux TTS & Qwen3 TTS:兩款強大的文字轉語音模型。Lux TTS 體積極小(約 1GB),
可在 CPU 上實現超實時運算 [21:51];Qwen3 TTS 則能精確複製音色並控制情感(如憤怒
、悲傷或設計特定年齡的聲音) [20:27]。
Vibe Voice ASR (Microsoft):極速的語音轉文字工具,支援超過 100 種語言,轉
錄速度比 Whisper 快很多,且支援自定義專有名詞與多講者追蹤 [24:06]。
實時世界與視覺推理
Waypoint One:這是一個 實時互動式影片生成器,延遲極低。使用者可以輸入文字
(如「賽博龐克城市」)並像玩第一人稱遊戲一樣使用滑鼠和鍵盤在生成的環境中移動
[13:43]。
Light on OCR:僅有 10 億參數的極輕量模型,但在複雜表格、論文截圖與古舊掃描
檔的文字辨識上,性能超越了許多大型模型 [04:49]。
Step-3 VL-10B:具備強大推理能力的視覺模型,能看圖計數、分析複雜的程式碼圖
表,甚至根據截圖中的邏輯問題進行思考 [36:32]。
實時 AI 主播與其他
Flow Act R1:能生成 實時串流影片,延遲僅 1.5 秒且達 25 FPS。生成的虛擬人物
說話非常真實,會自然地移動頭部、手部與整理頭髮,極難辨認真偽 [29:22]。
Linum V2:由兩兄弟組成的團隊從零訓練的 20 億參數開源影片生成模型 [33:45]。
這週的新聞顯示 AI 正在朝向「實時化」與「更細膩的物理控制」快速演進。
--
Gemini3整理
單圖生場景越來越多了
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.205.117 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1769315504.A.23E.html
→ error405: Persona Plex原來是AI客服 01/25 12:42
→ error405: Flow Act R1自己加一堆小動作 沒事摸個鼻子 01/25 13:00