作者error405 (流河=L)
看板AI_Art
標題[閒聊] GPT 5.2 評測影片重點摘要
時間Tue Dec 16 12:05:46 2025
https://www.youtube.com/watch?v=jnTSGk0gi5c
以下是這部 GPT 5.2 評測影片的重點摘要,總結了其新功能、實際演示結果以及與競品
的比較:
1. 核心亮點與定位
最強模型之一:GPT 5.2 被 OpenAI 宣稱為「最適合專業知識工作」的模型。
版本:影片中測試的是 GPT 5.2 Thinking(思考模式),這是性能最強的變體。
付費限制:目前僅限 Plus 等付費訂閱用戶使用,免費用戶無法存取。
知識庫更新:知識截止日期為 2025 年 8 月,比許多競品更新。
2. 實際演示與能力測試
影片展示了多個高難度的 Prompt 測試,結果如下:
HTML/JS 程式編碼能力(極強):
蜂巢模擬:成功生成包含工蜂路徑、蜂蜜儲存的視覺化模擬。與 Gemini 3 相比
,GPT 5.2 的模擬更符合物理現實(蜜蜂從單一入口進出)。
Photoshop 複刻版:僅用 19 秒就寫出了一個功能完整的網頁版 Photoshop,包
含圖層、筆刷(可調硬度/透明度)、濾鏡(模糊/銳化/灰階)、混合模式(
Overlay/Multiply)和編輯歷史,功能全部可用且無 bug。
Windows 11 複刻版:生成了包含功能性 Word、Excel(支援公式計算)、
PowerPoint(可新增投影片、播放簡報)的桌面模擬。雖然 UI 不完美,但功能性遠勝
Gemini 3 Pro(後者生成的 Excel 無法操作)。
3D 光線追蹤模擬:成功生成兩個金屬球懸浮在街道上的 3D 場景,且球體之間
能互相反射(物理正確),這是之前模型無法做到的。
3D 星空圖:一次生成可互動的 3D 星座圖,標籤與星座形狀(如北斗七星)大
致正確。
視覺辨識與多模態能力:
動漫角色辨識:能準確辨識並標註《鬼滅之刃》中的多個角色。
尋找威利 (Where's Waldo):透過撰寫 Python 程式碼來掃描圖片,耗時 13 分
鐘後成功找到威利,展現了強大的工具使用與問題解決能力。
複雜表格轉 Excel:能處理結構極其複雜、有缺失儲存格的巢狀表格,並完美轉
換為試算表。
流程圖轉代碼:能將複雜流程圖轉換為可編輯的 canvas,文字與顏色正確,但
箭頭連接上有少量錯誤。
弱點:在「尋找隱藏青蛙」和「醫療影像病灶標註」的測試中表現不佳,與
Gemini 3 Pro 一樣未能正確識別。在地理位置猜測(Geo-guessing)上,雖未完全命中
,但比 Gemini 3 Pro 更接近真實位置。
3. 基準測試 (Benchmarks) 與競品比較
GDP Val:在涵蓋 44 種職業任務的測試中,GPT 5.2 是首個在超過 50% 的時間內表
現優於人類專家的模型。
ARC-AGI 2:在測試「學習新模式能力」的指標上得分 52.9%,顯著優於 Gemini 3
Pro,顯示其適應未知問題的能力更強。
SWE-bench Pro:OpenAI 採用了更難的 "Pro" 版本測試,顯示其優於 Claude Opus
4.5 和 Gemini 3 Pro。但在舊版的 "Verified" 測試中,GPT 5.2 未必領先。
長文本能力:在 256k tokens(約 20 萬字)的長文本測試中,準確率接近 100%。
但其最大上下文窗口為 400k tokens,低於 Gemini 3 的 100 萬 tokens。
第三方排名:
在 Artificial Analysis 排行榜上,GPT 5.2 Extra High 與 Gemini 3 Pro 並
列第一。
價格方面,每百萬 token $4.8 美元,比 Gemini 3 Pro 稍貴,但遠便宜於
Claude Opus 4.5。
在幻覺率(Hallucination Rate)上,GPT 5.2 表現中等(78% 錯誤率),優
於 Gemini 3 Pro,但不如 Grok 4 或 Kimi k2。
總結
GPT 5.2 是一個非常強大的模型,特別是在複雜編碼(能寫出功能完整的應用程式)和邏
輯推理方面表現突出。雖然在某些視覺識別任務上仍有進步空間,但整體實力與 Gemini
3 Pro 處於伯仲之間,是目前市場上的頂級選擇。
--
gemini3整理
競爭對手都說伯仲之間了應該不弱
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.245.116 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1765857948.A.19E.html
→ error405: 這頻道有料但影片好長 先做摘要再倍速跳著看比較快 12/16 12:14
推 ct13579: 看明年的grok5能否頂足而三 12/16 12:28
推 Supasizeit: 證明了headless video也是有人看 12/16 13:20
→ error405: (天天刷低能short) 12/16 13:38