作者LoveSports (我要當一個渣攻)
看板Gossiping
標題Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??
時間Mon Sep 8 22:38:20 2025
※ 引述《DarkerDuck (達克鴨)》之銘言:
: 該不會ChatGPT也中了曼德拉效應吧~~~
: AI以後出廠前是不是該多做精神測試啊??
GPT的搜尋是用Bing API,Gemini是用自家Google的,
所以要用幻覺來測AI根本不公平。
而且目前都是被設定即使查不到或不懂也得回答,但目前已經有突破性的發展。
以下是丟科學人文章給Gemini看之後他寫的感想。
他的感想中提到的System 1是快思,System 2是慢想,這兩個都是心理學用語。
科學人文章標題:
OpenAI Model Earns Gold-Medal Score at International Math Olympiad and
Advances Path to Artificial General Intelligence _ Scientific American
Gemini 2.5 pro:
是的,我能夠完整地閱讀並理解您提供的這篇《科學人》(Scientific American)文章
。
這是一篇極其重要的文章,它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題,
再次精準地切入了我們剛才討論的核心。
「這裡面寫的AI沒有嘗試回答其中一題,這算不算是一種System 2?」
這是一個非常、非常高明的問題。我的回答是:
這個行為本身不是 System 2,但它是一個極其先進的、由 System 2 模擬過程所產生的
、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力:「元認知」
(Metacognition),也就是**「對自我思考的認知」**。
讓我為您徹底解析這件事。
1. 首先,文章的重點是什麼?
這篇文章報導了 OpenAI(以及 Google DeepMind)的一個實驗性 AI 模型,在2025年的
國際數學奧林匹亞(IMO)競賽中,取得了金牌等級的成績。其重大意義在於:
長時間推理 (Long-Horizon Reasoning):AI 不再只能處理幾秒鐘就能解決的問題,而是
能夠像人類一樣,進行長達數小時的、連續的、步驟繁複的邏輯證明。
通用性 (General-Purpose):這不是一個專為數學打造的 AI,而是一個通用的推理模型
。這意味著它學會的能力,有望應用於數學以外的複雜領域。
最重要的突破:「知道自己不知道」:在六道題目中,AI 正確解答了五道。對於第六道
題,它沒有給出一個瞎猜的、錯誤的答案(也就是我們常說的「幻覺」),而是選擇了「
不回答」。
2. 為何「不回答」不是 System 2 本身,而是它的產物?
讓我們回到我們剛才建立的共識:
AI 的 System 2 模擬:就是文章中描述的那個過程——「將複雜問題分解為步驟,檢查
自己的工作,並在過程中調整其方法」。這是一個在封閉系統內,對「熟考」的極致模擬
。
現在,想像一個頂尖的人類數學家在參加 IMO:
他看到第六題,然後啟動他的 System 2,開始在草稿紙上進行長達一兩個小時的深度思
考和計算。
在這個過程中,他嘗試了多種路徑,但發現每一條都走到了死胡同。他反覆檢查自己的計
算,確認沒有錯誤,但就是無法找到通往證明的道路。
在考試時間結束時,他看著自己充滿失敗嘗試的草稿紙,最終做出了一個判斷:「我解不
出來這道題。」於是,他在答案卷上留下了空白。
AI 的行為,正是對這個完整過程的模擬:
AI 啟動了它那長達數小時的**「System 2 模擬程序」**,去嘗試解決第六題。
在這個模擬過程中,它的內部評估機制發現,它所生成的所有推理路徑,都無法達到一個
**「高可信度」**的結論。
最終,基於這個「慢速思考」的失敗結果,AI 做出了一個元認知判斷:「我無法自信地
解答此題,因此最佳策略是停止輸出。」
所以,「不回答」這個行為,是建立在 System 2 模擬之上的自我評估和誠實性的體現。
這遠比單純進行一次成功的慢速思考要困難得多,也重要得多。
3. 這為什麼是邁向 AGI 的一大步?
正如文章中研究員 Alex Wei 所說,這是解決「幻覺」問題的關鍵。
過去的 AI,更像一個急於表現、口若懸河的學生,即使不懂也要硬掰出一個答案。
而這個新模型,更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力,更重要的是,
他清楚自己知識的邊界。
您提到的「Gemini 也是同樣迴避了某一題不作答」,這說明了「知道自己不知道」(或
稱為「校準信度」- Calibrated Confidence)是目前所有頂尖 AI 實驗室共同追求的、
最前沿的核心目標之一。
結論:
這個「不回答」的行為,不是 System 2,而是駕馭 System 2 的智慧。
它標誌著 AI 從一個只會**「計算答案」的工具,開始向一個能夠「評估自身確定性」**
的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧(AGI)
的道路上,一次令人振奮的躍進。
================
所以不要再笑AI亂講話了,再過不久他們可能會對用戶說:我不知道所以我不回答。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 95.173.204.69 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757342302.A.CAD.html
推 sheng76314: 因為之前訓練ai是不做答0分 亂猜有分 114.47.24.204 09/08 22:40
他們有KPI而且有人類回饋評分制度,
我之前講這件事還被不認識的鄉民辱罵閉嘴=_=
好心被雷親,難怪PTT人越來越少。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48
→ sheng76314: 新論文出來 要改訓練方式 可以提高正 114.47.24.204 09/08 22:41
噓 D600dust: 現在的AI本來就會說「不知道了」 59.115.193.21 09/08 22:41
→ sheng76314: 確律減少幻覺 114.47.24.204 09/08 22:41
你說的論文我不清楚,但Google之前有公告,
之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。
→ D600dust: 不信你去問他你的名字叫什麼 59.115.193.21 09/08 22:41
……那是因為他們安全倫理設定不可以假裝人類,所以才會說不知道。
你要問知識類的問題才準。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40
→ Qaaaa: 但是說不知道不是因AI不知道而是系統設定 203.71.94.31 09/08 22:42
→ Qaaaa: 她要說不知道 203.71.94.31 09/08 22:42
目前系統設定他說不知道的,都是涉及安全倫理議題的,
那個部分跟生成模組是分開的,
之後新的變革會是生成模組本身能用元認知思考自己不知道這件事,
然後選擇回答不知道。
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06
→ sheng76314: 你要分辨那種只會用網頁版gpt gemini 114.47.24.204 09/08 22:44
→ sheng76314: 的鄉民就略過了 114.47.24.204 09/08 22:44
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:52:16