[閒聊] 實時AI語音 AI直播 互動場景..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 實時AI語音 AI直播互動場景..本週AI新聞

時間Sun Jan 25 12:31:42 2026

https://www.youtube.com/watch?v=BYPlfLQm0CQ

這部影片整理了 2026 年 1 月底多項突破性的 AI 技術新聞，涵蓋了 3D 場景重建、影片處理、語音技術、實時影片生成等多個領域。以下是詳細的簡介： 3D 場景與動作生成 VIGA (Vision as Inverse Graphics Agent)：這是一個能將單張圖片轉化為 Blender 3D 場景的 AI 代理。它不只是生成靜態模型，還能讓場景具備互動性（例如在重建的場景中丟球，它能模擬撞擊與破碎效果）[01:02]。 Franken Motion：能根據文字指令生成極其複雜的人體動作序列。它能處理細微的動作（如邊走邊坐下、繫鞋帶、換手拿東西），並可精確控制各個肢體部位 [27:14]。 Motion 3-to-4：能將影片中的角色（如跳舞的熊貓或真人）轉換為 4D 場景（即具備時間維度的 3D 模型），並支援動作轉移技術 [35:15]。影片處理與動畫技術 Video Mama：具備強大去背與遮罩（Masking）能力，能精確分離出複雜物體（如飛揚的頭髮、煙霧、蒲公英細毛等），即使在快速移動的影片中也能保持極高的透明度與準確度 [02:35]。 Omni Transfer：這是一個全能的影片編輯工具，能將參考影片中的視覺特效 (VFX) 、人物表情與動作、甚至是攝影機運鏡轉移到目標影片中 [15:23]。 Codance (Alibaba)：能同時控制一張圖片中的多個角色進行舞蹈或運動，且不限於人類比例，卡通人物或怪物也能呈現流暢的一致性 [11:58]。語音與語言技術 Persona Plex (NVIDIA)：免費開源的實時對話 AI，具備極佳的幽默感與角色扮演能力，能勝任專業的客戶服務或醫療診所櫃檯工作，對話極其自然流暢 [06:50]。 Lux TTS & Qwen3 TTS：兩款強大的文字轉語音模型。Lux TTS 體積極小（約 1GB），可在 CPU 上實現超實時運算 [21:51]；Qwen3 TTS 則能精確複製音色並控制情感（如憤怒、悲傷或設計特定年齡的聲音） [20:27]。 Vibe Voice ASR (Microsoft)：極速的語音轉文字工具，支援超過 100 種語言，轉錄速度比 Whisper 快很多，且支援自定義專有名詞與多講者追蹤 [24:06]。實時世界與視覺推理 Waypoint One：這是一個實時互動式影片生成器，延遲極低。使用者可以輸入文字（如「賽博龐克城市」）並像玩第一人稱遊戲一樣使用滑鼠和鍵盤在生成的環境中移動 [13:43]。 Light on OCR：僅有 10 億參數的極輕量模型，但在複雜表格、論文截圖與古舊掃描檔的文字辨識上，性能超越了許多大型模型 [04:49]。 Step-3 VL-10B：具備強大推理能力的視覺模型，能看圖計數、分析複雜的程式碼圖表，甚至根據截圖中的邏輯問題進行思考 [36:32]。實時 AI 主播與其他 Flow Act R1：能生成實時串流影片，延遲僅 1.5 秒且達 25 FPS。生成的虛擬人物說話非常真實，會自然地移動頭部、手部與整理頭髮，極難辨認真偽 [29:22]。 Linum V2：由兩兄弟組成的團隊從零訓練的 20 億參數開源影片生成模型 [33:45]。這週的新聞顯示 AI 正在朝向「實時化」與「更細膩的物理控制」快速演進。 -- Gemini3整理單圖生場景越來越多了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.205.117 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1769315504.A.23E.html

→ error405: Persona Plex原來是AI客服 01/25 12:42

→ error405: Flow Act R1自己加一堆小動作沒事摸個鼻子 01/25 13:00