[新聞] 微軟提出NUWA-XL多模自動生成式人工智慧

作者TyuzuChou (子瑜我老婆)

看板C_Chat

標題[新聞] 微軟提出NUWA-XL多模自動生成式人工智慧

時間Fri Apr 21 15:13:57 2023

微軟提出NUWA-XL多模自動生成式人工智慧模型以16組描述句生成11分鐘長度影片微軟亞洲研究院近期提出名為NUWA-XL的多模自動生成式人工智慧模型，標榜能以16組描述句即可生成長達11分鐘的影片內容。微軟亞洲研究院在2021年便提出多模自動生成式人工智慧模型NUWA (女媧)，能以自然語言描述生成文字、圖像、影片內容，後續推出的升級版NUWA-Infinity更進一步將生成圖像、影片解析度提高。而此次提出的NUWA-XL，則是建立在「擴散疊加」 (Diffusion over Diffusion)的運作架構之上，透過全域擴散模型 (Global Diffusion)生成影片所有時間範圍內的關鍵畫面，並且透過局部擴散模型 (Local Diffusion)依據填加關鍵畫面鄰近內容，藉此加快整體內容生成效率，同時也確保生成內容連續性與完整性。整體流程大約是先依照輸入描述句生成關鍵畫面，再依序針對關鍵畫面生成相應影片，並且透過擴散模型增加影片內容長度，讓影片最初生成的概略章節可以變成完整故事內容。在示範內容中，微軟以《摩登原始人》 (The Flintstones)動畫為基礎，自動生成全新動畫內容。 https://i.imgur.com/Om9AKVx.gif 在微軟此項技術中，原本生成1024個畫面的平均推論時間需要7.55分鐘，變成僅需花費26 秒即可生成，整體速度提升高達94.26%。不過，微軟說明影片生成背後依然需要仰賴足夠品質的影片內容訓練，此次提出的 NUWA-XL主要參考專業動畫內容製作流程，藉由先生成關鍵畫面，並且持續生成關鍵畫面衍生內容，進而構成完整動畫影片，並且確保內容連續性與生成品質，進而能加速內容生成速度。《原文刊登於合作媒體mashdigi，聯合新聞網獲授權轉載。》這樣應該可以大幅減輕動畫工作人員的工作吧 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.9.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1682061259.A.E04.html ※ 編輯: TyuzuChou (59.120.9.159 臺灣), 04/21/2023 15:15:52

推 guogu: 那個gif只能算ppt吧 04/21 15:22

→ frozenstar: 生出關鍵影格再做補間吧，就會有目前那種60fps的問題 04/21 15:35

推 reaturn: 需要大量的素材，畫師只是輔助AI的工具 04/21 15:49

→ reaturn: 讓我想到最後會不會變成小叮噹那個自動拍電影的道具 04/21 15:50