看板 AI_Art 關於我們 聯絡資訊
https://www.youtube.com/watch?v=BYPlfLQm0CQ
這部影片整理了 2026 年 1 月底多項突破性的 AI 技術新聞,涵蓋了 3D 場景重建、影 片處理、語音技術、實時影片生成等多個領域。以下是詳細的簡介: 3D 場景與動作生成 VIGA (Vision as Inverse Graphics Agent):這是一個能將單張圖片轉化為 Blender 3D 場景的 AI 代理。它不只是生成靜態模型,還能讓場景具備互動性(例如在 重建的場景中丟球,它能模擬撞擊與破碎效果)[01:02]。 Franken Motion:能根據文字指令生成極其複雜的人體動作序列。它能處理細微的動 作(如邊走邊坐下、繫鞋帶、換手拿東西),並可精確控制各個肢體部位 [27:14]。 Motion 3-to-4:能將影片中的角色(如跳舞的熊貓或真人)轉換為 4D 場景(即具 備時間維度的 3D 模型),並支援動作轉移技術 [35:15]。 影片處理與動畫技術 Video Mama:具備強大去背與遮罩(Masking)能力,能精確分離出複雜物體(如飛 揚的頭髮、煙霧、蒲公英細毛等),即使在快速移動的影片中也能保持極高的透明度與準 確度 [02:35]。 Omni Transfer:這是一個全能的影片編輯工具,能將參考影片中的 視覺特效 (VFX) 、人物表情與動作、甚至是 攝影機運鏡 轉移到目標影片中 [15:23]。 Codance (Alibaba):能同時控制一張圖片中的多個角色進行舞蹈或運動,且不限於 人類比例,卡通人物或怪物也能呈現流暢的一致性 [11:58]。 語音與語言技術 Persona Plex (NVIDIA):免費開源的實時對話 AI,具備極佳的幽默感與角色扮演能 力,能勝任專業的客戶服務或醫療診所櫃檯工作,對話極其自然流暢 [06:50]。 Lux TTS & Qwen3 TTS:兩款強大的文字轉語音模型。Lux TTS 體積極小(約 1GB), 可在 CPU 上實現超實時運算 [21:51];Qwen3 TTS 則能精確複製音色並控制情感(如憤怒 、悲傷或設計特定年齡的聲音) [20:27]。 Vibe Voice ASR (Microsoft):極速的語音轉文字工具,支援超過 100 種語言,轉 錄速度比 Whisper 快很多,且支援自定義專有名詞與多講者追蹤 [24:06]。 實時世界與視覺推理 Waypoint One:這是一個 實時互動式影片生成器,延遲極低。使用者可以輸入文字 (如「賽博龐克城市」)並像玩第一人稱遊戲一樣使用滑鼠和鍵盤在生成的環境中移動 [13:43]。 Light on OCR:僅有 10 億參數的極輕量模型,但在複雜表格、論文截圖與古舊掃描 檔的文字辨識上,性能超越了許多大型模型 [04:49]。 Step-3 VL-10B:具備強大推理能力的視覺模型,能看圖計數、分析複雜的程式碼圖 表,甚至根據截圖中的邏輯問題進行思考 [36:32]。 實時 AI 主播與其他 Flow Act R1:能生成 實時串流影片,延遲僅 1.5 秒且達 25 FPS。生成的虛擬人物 說話非常真實,會自然地移動頭部、手部與整理頭髮,極難辨認真偽 [29:22]。 Linum V2:由兩兄弟組成的團隊從零訓練的 20 億參數開源影片生成模型 [33:45]。 這週的新聞顯示 AI 正在朝向「實時化」與「更細膩的物理控制」快速演進。 -- Gemini3整理 單圖生場景越來越多了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.205.117 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1769315504.A.23E.html
error405: Persona Plex原來是AI客服 01/25 12:42
error405: Flow Act R1自己加一堆小動作 沒事摸個鼻子 01/25 13:00