看板 Diary 關於我們 聯絡資訊
2月16日 OpenAI昨(15)日公布最新生成式AI模型Sora,未來能讓使用者輸入文字即可產生短影片 ,目前已展開不公開的安全及功能測試。 Sora可依據用戶輸入的文字描述,產生最長1分鐘的高畫質影片。Sora能生成具有多個角 色、特定動作及具備精準主題細節及背景的複雜場景影片。其底層模型對語言有深度理解 能力,使其能精確解釋用戶的提示要求,產生能表達鮮明情感的人物,它也能在簡單一則 短影片建立多個場景,並以同樣的角色和視覺風格貫穿多場景。目前OpenAI已提供合作的 紅隊演練測試人員,以及少部分視覺設計、攝影師、製片人員試用Sora以取得專業反饋意 見。 Sora類似Meta和Google釋出的類似AI模型,分別名為Emu Video及VideoPoet。 從技術層面而言,Sora是一個擴散模型,能從一個看似靜態噪音(static noise)的影格 開始,逐步透過去除噪音生成一則影片。Sora是在DALL-E及GPT模型的研究基礎上發展, 它使用DALL-E 3的重描述(recaptioning)技術,能為視覺訓練資料產生高度描述文字, 因此能依循用戶文字指令產生影片。除了根據文字指示外,該模型也能將靜態圖片動態化 以生成影片。Sora能從無到有生成全新影片,也能延長現有影片,或是將遺失的影格補上 。 OpenAI表示,Sora是運行能理解及模擬真實世界的模型之基礎,該公司相信是實現通用人 工智慧(Artificial General Intelligence,AGI)的重要里程碑。 不過Sora目前還有待加強,因它對複雜場景的描繪,以及特定因果關係的理解還有問題。 例如它的人物可能咬了口餅乾,但餅乾卻沒有咬痕。它有時也會搞混提示的細節,例如左 、右搞錯,或無法精準描述發生一段時間的事件,例如無法跟著攝影機的軌跡移動。 在將Sora公開給大眾使用前,OpenAI正在強化安全測試。該公司正在進行紅隊演練,以評 估假訊息、仇恨內容及偏見對模型的影響。開發團隊也正在打造偵測誤導性內容的工具, 像是偵測分類器,能在Sora生成影片時加以判讀。 為提供辨識,該公司計畫未來將該模型部署到OpenAI產品中時,在其生成的影片加入 C2PA metadata。C2PA是Meta和業界聯盟合作發展的AI內容辨識標準,OpenAI已經在 DALL-E3生成的圖像中加入C2PA metadata。 此外,OpenAI也會利用團隊現有安全技術為Sora加入安全措施,像是文字分類器會拒絕違 反使用政策的提示,圖像分類器則會檢視影片的影格,以確保符合政策。該公司也承諾和 立法機關、教育人士及藝術家合作以減少其對AI的疑慮。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.217.153.1 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Diary/M.1708095155.A.53D.html