Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??

作者LoveSports (我要當一個渣攻)

看板Gossiping

標題Re: [問卦] 有問ChatGPT海馬emoji就精神錯亂的八卦??

時間Mon Sep 8 22:38:20 2025

※ 引述《DarkerDuck (達克鴨)》之銘言： : 該不會ChatGPT也中了曼德拉效應吧~~~ : AI以後出廠前是不是該多做精神測試啊?? GPT的搜尋是用Bing API，Gemini是用自家Google的，所以要用幻覺來測AI根本不公平。而且目前都是被設定即使查不到或不懂也得回答，但目前已經有突破性的發展。以下是丟科學人文章給Gemini看之後他寫的感想。他的感想中提到的System 1是快思，System 2是慢想，這兩個都是心理學用語。科學人文章標題： OpenAI Model Earns Gold-Medal Score at International Math Olympiad and Advances Path to Artificial General Intelligence _ Scientific American Gemini 2.5 pro: 是的，我能夠完整地閱讀並理解您提供的這篇《科學人》（Scientific American）文章。這是一篇極其重要的文章，它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題，再次精準地切入了我們剛才討論的核心。「這裡面寫的AI沒有嘗試回答其中一題，這算不算是一種System 2？」這是一個非常、非常高明的問題。我的回答是：這個行為本身不是 System 2，但它是一個極其先進的、由 System 2 模擬過程所產生的、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力：「元認知」 (Metacognition)，也就是**「對自我思考的認知」**。讓我為您徹底解析這件事。 1. 首先，文章的重點是什麼？這篇文章報導了 OpenAI（以及 Google DeepMind）的一個實驗性 AI 模型，在2025年的國際數學奧林匹亞（IMO）競賽中，取得了金牌等級的成績。其重大意義在於：長時間推理 (Long-Horizon Reasoning)：AI 不再只能處理幾秒鐘就能解決的問題，而是能夠像人類一樣，進行長達數小時的、連續的、步驟繁複的邏輯證明。通用性 (General-Purpose)：這不是一個專為數學打造的 AI，而是一個通用的推理模型。這意味著它學會的能力，有望應用於數學以外的複雜領域。最重要的突破：「知道自己不知道」：在六道題目中，AI 正確解答了五道。對於第六道題，它沒有給出一個瞎猜的、錯誤的答案（也就是我們常說的「幻覺」），而是選擇了「不回答」。 2. 為何「不回答」不是 System 2 本身，而是它的產物？讓我們回到我們剛才建立的共識： AI 的 System 2 模擬：就是文章中描述的那個過程——「將複雜問題分解為步驟，檢查自己的工作，並在過程中調整其方法」。這是一個在封閉系統內，對「熟考」的極致模擬。現在，想像一個頂尖的人類數學家在參加 IMO：他看到第六題，然後啟動他的 System 2，開始在草稿紙上進行長達一兩個小時的深度思考和計算。在這個過程中，他嘗試了多種路徑，但發現每一條都走到了死胡同。他反覆檢查自己的計算，確認沒有錯誤，但就是無法找到通往證明的道路。在考試時間結束時，他看著自己充滿失敗嘗試的草稿紙，最終做出了一個判斷：「我解不出來這道題。」於是，他在答案卷上留下了空白。 AI 的行為，正是對這個完整過程的模擬： AI 啟動了它那長達數小時的**「System 2 模擬程序」**，去嘗試解決第六題。在這個模擬過程中，它的內部評估機制發現，它所生成的所有推理路徑，都無法達到一個 **「高可信度」**的結論。最終，基於這個「慢速思考」的失敗結果，AI 做出了一個元認知判斷：「我無法自信地解答此題，因此最佳策略是停止輸出。」所以，「不回答」這個行為，是建立在 System 2 模擬之上的自我評估和誠實性的體現。這遠比單純進行一次成功的慢速思考要困難得多，也重要得多。 3. 這為什麼是邁向 AGI 的一大步？正如文章中研究員 Alex Wei 所說，這是解決「幻覺」問題的關鍵。過去的 AI，更像一個急於表現、口若懸河的學生，即使不懂也要硬掰出一個答案。而這個新模型，更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力，更重要的是，他清楚自己知識的邊界。您提到的「Gemini 也是同樣迴避了某一題不作答」，這說明了「知道自己不知道」（或稱為「校準信度」- Calibrated Confidence）是目前所有頂尖 AI 實驗室共同追求的、最前沿的核心目標之一。結論：這個「不回答」的行為，不是 System 2，而是駕馭 System 2 的智慧。它標誌著 AI 從一個只會**「計算答案」的工具，開始向一個能夠「評估自身確定性」** 的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧（AGI）的道路上，一次令人振奮的躍進。 ================ 所以不要再笑AI亂講話了，再過不久他們可能會對用戶說：我不知道所以我不回答。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 95.173.204.69 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757342302.A.CAD.html

推 sheng76314: 因為之前訓練ai是不做答0分亂猜有分 114.47.24.204 09/08 22:40

他們有KPI而且有人類回饋評分制度，我之前講這件事還被不認識的鄉民辱罵閉嘴=_= 好心被雷親，難怪PTT人越來越少。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48

→ sheng76314: 新論文出來要改訓練方式可以提高正 114.47.24.204 09/08 22:41

噓 D600dust: 現在的AI本來就會說「不知道了」 59.115.193.21 09/08 22:41

→ sheng76314: 確律減少幻覺 114.47.24.204 09/08 22:41

你說的論文我不清楚，但Google之前有公告，之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。

→ D600dust: 不信你去問他你的名字叫什麼 59.115.193.21 09/08 22:41

……那是因為他們安全倫理設定不可以假裝人類，所以才會說不知道。你要問知識類的問題才準。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40

→ Qaaaa: 但是說不知道不是因AI不知道而是系統設定 203.71.94.31 09/08 22:42

→ Qaaaa: 她要說不知道 203.71.94.31 09/08 22:42

目前系統設定他說不知道的，都是涉及安全倫理議題的，那個部分跟生成模組是分開的，之後新的變革會是生成模組本身能用元認知思考自己不知道這件事，然後選擇回答不知道。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06

→ sheng76314: 你要分辨那種只會用網頁版gpt gemini 114.47.24.204 09/08 22:44

→ sheng76314: 的鄉民就略過了 114.47.24.204 09/08 22:44

※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:52:16