0216 - 看板 Diary - 批踢踢實業坊

作者s256988452 (Allies)

看板Diary

標題0216

時間Fri Feb 16 22:52:32 2024

2月16日 OpenAI昨（15）日公布最新生成式AI模型Sora，未來能讓使用者輸入文字即可產生短影片，目前已展開不公開的安全及功能測試。 Sora可依據用戶輸入的文字描述，產生最長1分鐘的高畫質影片。Sora能生成具有多個角色、特定動作及具備精準主題細節及背景的複雜場景影片。其底層模型對語言有深度理解能力，使其能精確解釋用戶的提示要求，產生能表達鮮明情感的人物，它也能在簡單一則短影片建立多個場景，並以同樣的角色和視覺風格貫穿多場景。目前OpenAI已提供合作的紅隊演練測試人員，以及少部分視覺設計、攝影師、製片人員試用Sora以取得專業反饋意見。 Sora類似Meta和Google釋出的類似AI模型，分別名為Emu Video及VideoPoet。從技術層面而言，Sora是一個擴散模型，能從一個看似靜態噪音（static noise）的影格開始，逐步透過去除噪音生成一則影片。Sora是在DALL-E及GPT模型的研究基礎上發展，它使用DALL-E 3的重描述（recaptioning）技術，能為視覺訓練資料產生高度描述文字，因此能依循用戶文字指令產生影片。除了根據文字指示外，該模型也能將靜態圖片動態化以生成影片。Sora能從無到有生成全新影片，也能延長現有影片，或是將遺失的影格補上。 OpenAI表示，Sora是運行能理解及模擬真實世界的模型之基礎，該公司相信是實現通用人工智慧（Artificial General Intelligence，AGI）的重要里程碑。不過Sora目前還有待加強，因它對複雜場景的描繪，以及特定因果關係的理解還有問題。例如它的人物可能咬了口餅乾，但餅乾卻沒有咬痕。它有時也會搞混提示的細節，例如左、右搞錯，或無法精準描述發生一段時間的事件，例如無法跟著攝影機的軌跡移動。在將Sora公開給大眾使用前，OpenAI正在強化安全測試。該公司正在進行紅隊演練，以評估假訊息、仇恨內容及偏見對模型的影響。開發團隊也正在打造偵測誤導性內容的工具，像是偵測分類器，能在Sora生成影片時加以判讀。為提供辨識，該公司計畫未來將該模型部署到OpenAI產品中時，在其生成的影片加入 C2PA metadata。C2PA是Meta和業界聯盟合作發展的AI內容辨識標準，OpenAI已經在 DALL-E3生成的圖像中加入C2PA metadata。此外，OpenAI也會利用團隊現有安全技術為Sora加入安全措施，像是文字分類器會拒絕違反使用政策的提示，圖像分類器則會檢視影片的影格，以確保符合政策。該公司也承諾和立法機關、教育人士及藝術家合作以減少其對AI的疑慮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.153.1 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Diary/M.1708095155.A.53D.html