[閒聊] GPT 5.2 評測影片重點摘要

作者error405 (流河=L)

看板AI_Art

標題[閒聊] GPT 5.2 評測影片重點摘要

時間Tue Dec 16 12:05:46 2025

https://www.youtube.com/watch?v=jnTSGk0gi5c

以下是這部 GPT 5.2 評測影片的重點摘要，總結了其新功能、實際演示結果以及與競品的比較： 1. 核心亮點與定位最強模型之一：GPT 5.2 被 OpenAI 宣稱為「最適合專業知識工作」的模型。版本：影片中測試的是 GPT 5.2 Thinking（思考模式），這是性能最強的變體。付費限制：目前僅限 Plus 等付費訂閱用戶使用，免費用戶無法存取。知識庫更新：知識截止日期為 2025 年 8 月，比許多競品更新。 2. 實際演示與能力測試影片展示了多個高難度的 Prompt 測試，結果如下： HTML/JS 程式編碼能力（極強）：蜂巢模擬：成功生成包含工蜂路徑、蜂蜜儲存的視覺化模擬。與 Gemini 3 相比，GPT 5.2 的模擬更符合物理現實（蜜蜂從單一入口進出）。 Photoshop 複刻版：僅用 19 秒就寫出了一個功能完整的網頁版 Photoshop，包含圖層、筆刷（可調硬度/透明度）、濾鏡（模糊/銳化/灰階）、混合模式（ Overlay/Multiply）和編輯歷史，功能全部可用且無 bug。 Windows 11 複刻版：生成了包含功能性 Word、Excel（支援公式計算）、 PowerPoint（可新增投影片、播放簡報）的桌面模擬。雖然 UI 不完美，但功能性遠勝 Gemini 3 Pro（後者生成的 Excel 無法操作）。 3D 光線追蹤模擬：成功生成兩個金屬球懸浮在街道上的 3D 場景，且球體之間能互相反射（物理正確），這是之前模型無法做到的。 3D 星空圖：一次生成可互動的 3D 星座圖，標籤與星座形狀（如北斗七星）大致正確。視覺辨識與多模態能力：動漫角色辨識：能準確辨識並標註《鬼滅之刃》中的多個角色。尋找威利 (Where's Waldo)：透過撰寫 Python 程式碼來掃描圖片，耗時 13 分鐘後成功找到威利，展現了強大的工具使用與問題解決能力。複雜表格轉 Excel：能處理結構極其複雜、有缺失儲存格的巢狀表格，並完美轉換為試算表。流程圖轉代碼：能將複雜流程圖轉換為可編輯的 canvas，文字與顏色正確，但箭頭連接上有少量錯誤。弱點：在「尋找隱藏青蛙」和「醫療影像病灶標註」的測試中表現不佳，與 Gemini 3 Pro 一樣未能正確識別。在地理位置猜測（Geo-guessing）上，雖未完全命中，但比 Gemini 3 Pro 更接近真實位置。 3. 基準測試 (Benchmarks) 與競品比較 GDP Val：在涵蓋 44 種職業任務的測試中，GPT 5.2 是首個在超過 50% 的時間內表現優於人類專家的模型。 ARC-AGI 2：在測試「學習新模式能力」的指標上得分 52.9%，顯著優於 Gemini 3 Pro，顯示其適應未知問題的能力更強。 SWE-bench Pro：OpenAI 採用了更難的 "Pro" 版本測試，顯示其優於 Claude Opus 4.5 和 Gemini 3 Pro。但在舊版的 "Verified" 測試中，GPT 5.2 未必領先。長文本能力：在 256k tokens（約 20 萬字）的長文本測試中，準確率接近 100%。但其最大上下文窗口為 400k tokens，低於 Gemini 3 的 100 萬 tokens。第三方排名：在 Artificial Analysis 排行榜上，GPT 5.2 Extra High 與 Gemini 3 Pro 並列第一。價格方面，每百萬 token $4.8 美元，比 Gemini 3 Pro 稍貴，但遠便宜於 Claude Opus 4.5。在幻覺率（Hallucination Rate）上，GPT 5.2 表現中等（78% 錯誤率），優於 Gemini 3 Pro，但不如 Grok 4 或 Kimi k2。總結 GPT 5.2 是一個非常強大的模型，特別是在複雜編碼（能寫出功能完整的應用程式）和邏輯推理方面表現突出。雖然在某些視覺識別任務上仍有進步空間，但整體實力與 Gemini 3 Pro 處於伯仲之間，是目前市場上的頂級選擇。 -- gemini3整理競爭對手都說伯仲之間了應該不弱 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.245.116 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1765857948.A.19E.html

→ error405: 這頻道有料但影片好長先做摘要再倍速跳著看比較快 12/16 12:14

推 ct13579: 看明年的grok5能否頂足而三 12/16 12:28

推 Supasizeit: 證明了headless video也是有人看 12/16 13:20

→ error405: (天天刷低能short) 12/16 13:38