看板 AI_Art 關於我們 聯絡資訊
https://www.youtube.com/watch?v=jnTSGk0gi5c
以下是這部 GPT 5.2 評測影片的重點摘要,總結了其新功能、實際演示結果以及與競品 的比較: 1. 核心亮點與定位 最強模型之一:GPT 5.2 被 OpenAI 宣稱為「最適合專業知識工作」的模型。 版本:影片中測試的是 GPT 5.2 Thinking(思考模式),這是性能最強的變體。 付費限制:目前僅限 Plus 等付費訂閱用戶使用,免費用戶無法存取。 知識庫更新:知識截止日期為 2025 年 8 月,比許多競品更新。 2. 實際演示與能力測試 影片展示了多個高難度的 Prompt 測試,結果如下: HTML/JS 程式編碼能力(極強): 蜂巢模擬:成功生成包含工蜂路徑、蜂蜜儲存的視覺化模擬。與 Gemini 3 相比 ,GPT 5.2 的模擬更符合物理現實(蜜蜂從單一入口進出)。 Photoshop 複刻版:僅用 19 秒就寫出了一個功能完整的網頁版 Photoshop,包 含圖層、筆刷(可調硬度/透明度)、濾鏡(模糊/銳化/灰階)、混合模式( Overlay/Multiply)和編輯歷史,功能全部可用且無 bug。 Windows 11 複刻版:生成了包含功能性 Word、Excel(支援公式計算)、 PowerPoint(可新增投影片、播放簡報)的桌面模擬。雖然 UI 不完美,但功能性遠勝 Gemini 3 Pro(後者生成的 Excel 無法操作)。 3D 光線追蹤模擬:成功生成兩個金屬球懸浮在街道上的 3D 場景,且球體之間 能互相反射(物理正確),這是之前模型無法做到的。 3D 星空圖:一次生成可互動的 3D 星座圖,標籤與星座形狀(如北斗七星)大 致正確。 視覺辨識與多模態能力: 動漫角色辨識:能準確辨識並標註《鬼滅之刃》中的多個角色。 尋找威利 (Where's Waldo):透過撰寫 Python 程式碼來掃描圖片,耗時 13 分 鐘後成功找到威利,展現了強大的工具使用與問題解決能力。 複雜表格轉 Excel:能處理結構極其複雜、有缺失儲存格的巢狀表格,並完美轉 換為試算表。 流程圖轉代碼:能將複雜流程圖轉換為可編輯的 canvas,文字與顏色正確,但 箭頭連接上有少量錯誤。 弱點:在「尋找隱藏青蛙」和「醫療影像病灶標註」的測試中表現不佳,與 Gemini 3 Pro 一樣未能正確識別。在地理位置猜測(Geo-guessing)上,雖未完全命中 ,但比 Gemini 3 Pro 更接近真實位置。 3. 基準測試 (Benchmarks) 與競品比較 GDP Val:在涵蓋 44 種職業任務的測試中,GPT 5.2 是首個在超過 50% 的時間內表 現優於人類專家的模型。 ARC-AGI 2:在測試「學習新模式能力」的指標上得分 52.9%,顯著優於 Gemini 3 Pro,顯示其適應未知問題的能力更強。 SWE-bench Pro:OpenAI 採用了更難的 "Pro" 版本測試,顯示其優於 Claude Opus 4.5 和 Gemini 3 Pro。但在舊版的 "Verified" 測試中,GPT 5.2 未必領先。 長文本能力:在 256k tokens(約 20 萬字)的長文本測試中,準確率接近 100%。 但其最大上下文窗口為 400k tokens,低於 Gemini 3 的 100 萬 tokens。 第三方排名: 在 Artificial Analysis 排行榜上,GPT 5.2 Extra High 與 Gemini 3 Pro 並 列第一。 價格方面,每百萬 token $4.8 美元,比 Gemini 3 Pro 稍貴,但遠便宜於 Claude Opus 4.5。 在幻覺率(Hallucination Rate)上,GPT 5.2 表現中等(78% 錯誤率),優 於 Gemini 3 Pro,但不如 Grok 4 或 Kimi k2。 總結 GPT 5.2 是一個非常強大的模型,特別是在複雜編碼(能寫出功能完整的應用程式)和邏 輯推理方面表現突出。雖然在某些視覺識別任務上仍有進步空間,但整體實力與 Gemini 3 Pro 處於伯仲之間,是目前市場上的頂級選擇。 -- gemini3整理 競爭對手都說伯仲之間了應該不弱 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.245.116 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1765857948.A.19E.html
error405: 這頻道有料但影片好長 先做摘要再倍速跳著看比較快 12/16 12:14
ct13579: 看明年的grok5能否頂足而三 12/16 12:28
Supasizeit: 證明了headless video也是有人看 12/16 13:20
error405: (天天刷低能short) 12/16 13:38