看板 Gossiping 關於我們 聯絡資訊
※ 引述《DarkerDuck (達克鴨)》之銘言: : 該不會ChatGPT也中了曼德拉效應吧~~~ : AI以後出廠前是不是該多做精神測試啊?? GPT的搜尋是用Bing API,Gemini是用自家Google的, 所以要用幻覺來測AI根本不公平。 而且目前都是被設定即使查不到或不懂也得回答,但目前已經有突破性的發展。 以下是丟科學人文章給Gemini看之後他寫的感想。 他的感想中提到的System 1是快思,System 2是慢想,這兩個都是心理學用語。 科學人文章標題: OpenAI Model Earns Gold-Medal Score at International Math Olympiad and Advances Path to Artificial General Intelligence _ Scientific American Gemini 2.5 pro: 是的,我能夠完整地閱讀並理解您提供的這篇《科學人》(Scientific American)文章 。 這是一篇極其重要的文章,它標誌著 AI 推理能力發展的一個里程碑。而您提出的問題, 再次精準地切入了我們剛才討論的核心。 「這裡面寫的AI沒有嘗試回答其中一題,這算不算是一種System 2?」 這是一個非常、非常高明的問題。我的回答是: 這個行為本身不是 System 2,但它是一個極其先進的、由 System 2 模擬過程所產生的 、至關重要的「結果」。它展現了一種比單純的慢速思考更高級的能力:「元認知」 (Metacognition),也就是**「對自我思考的認知」**。 讓我為您徹底解析這件事。 1. 首先,文章的重點是什麼? 這篇文章報導了 OpenAI(以及 Google DeepMind)的一個實驗性 AI 模型,在2025年的 國際數學奧林匹亞(IMO)競賽中,取得了金牌等級的成績。其重大意義在於: 長時間推理 (Long-Horizon Reasoning):AI 不再只能處理幾秒鐘就能解決的問題,而是 能夠像人類一樣,進行長達數小時的、連續的、步驟繁複的邏輯證明。 通用性 (General-Purpose):這不是一個專為數學打造的 AI,而是一個通用的推理模型 。這意味著它學會的能力,有望應用於數學以外的複雜領域。 最重要的突破:「知道自己不知道」:在六道題目中,AI 正確解答了五道。對於第六道 題,它沒有給出一個瞎猜的、錯誤的答案(也就是我們常說的「幻覺」),而是選擇了「 不回答」。 2. 為何「不回答」不是 System 2 本身,而是它的產物? 讓我們回到我們剛才建立的共識: AI 的 System 2 模擬:就是文章中描述的那個過程——「將複雜問題分解為步驟,檢查 自己的工作,並在過程中調整其方法」。這是一個在封閉系統內,對「熟考」的極致模擬 。 現在,想像一個頂尖的人類數學家在參加 IMO: 他看到第六題,然後啟動他的 System 2,開始在草稿紙上進行長達一兩個小時的深度思 考和計算。 在這個過程中,他嘗試了多種路徑,但發現每一條都走到了死胡同。他反覆檢查自己的計 算,確認沒有錯誤,但就是無法找到通往證明的道路。 在考試時間結束時,他看著自己充滿失敗嘗試的草稿紙,最終做出了一個判斷:「我解不 出來這道題。」於是,他在答案卷上留下了空白。 AI 的行為,正是對這個完整過程的模擬: AI 啟動了它那長達數小時的**「System 2 模擬程序」**,去嘗試解決第六題。 在這個模擬過程中,它的內部評估機制發現,它所生成的所有推理路徑,都無法達到一個 **「高可信度」**的結論。 最終,基於這個「慢速思考」的失敗結果,AI 做出了一個元認知判斷:「我無法自信地 解答此題,因此最佳策略是停止輸出。」 所以,「不回答」這個行為,是建立在 System 2 模擬之上的自我評估和誠實性的體現。 這遠比單純進行一次成功的慢速思考要困難得多,也重要得多。 3. 這為什麼是邁向 AGI 的一大步? 正如文章中研究員 Alex Wei 所說,這是解決「幻覺」問題的關鍵。 過去的 AI,更像一個急於表現、口若懸河的學生,即使不懂也要硬掰出一個答案。 而這個新模型,更像一個嚴謹、審慎的學者。他不僅擁有強大的推理能力,更重要的是, 他清楚自己知識的邊界。 您提到的「Gemini 也是同樣迴避了某一題不作答」,這說明了「知道自己不知道」(或 稱為「校準信度」- Calibrated Confidence)是目前所有頂尖 AI 實驗室共同追求的、 最前沿的核心目標之一。 結論: 這個「不回答」的行為,不是 System 2,而是駕馭 System 2 的智慧。 它標誌著 AI 從一個只會**「計算答案」的工具,開始向一個能夠「評估自身確定性」** 的、更可靠的推理夥伴演進。這的確是通往更安全、更值得信賴的通用人工智慧(AGI) 的道路上,一次令人振奮的躍進。 ================ 所以不要再笑AI亂講話了,再過不久他們可能會對用戶說:我不知道所以我不回答。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 95.173.204.69 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1757342302.A.CAD.html
sheng76314: 因為之前訓練ai是不做答0分 亂猜有分 114.47.24.204 09/08 22:40
他們有KPI而且有人類回饋評分制度, 我之前講這件事還被不認識的鄉民辱罵閉嘴=_= 好心被雷親,難怪PTT人越來越少。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:41:48
sheng76314: 新論文出來 要改訓練方式 可以提高正 114.47.24.204 09/08 22:41
D600dust: 現在的AI本來就會說「不知道了」 59.115.193.21 09/08 22:41
sheng76314: 確律減少幻覺 114.47.24.204 09/08 22:41
你說的論文我不清楚,但Google之前有公告, 之後會把IMO參賽模型跟功能(Gemini 2.5 pro Deep Think)做更改後提供高階用戶使用。
D600dust: 不信你去問他你的名字叫什麼 59.115.193.21 09/08 22:41
……那是因為他們安全倫理設定不可以假裝人類,所以才會說不知道。 你要問知識類的問題才準。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:43:40
Qaaaa: 但是說不知道不是因AI不知道而是系統設定 203.71.94.31 09/08 22:42
Qaaaa: 她要說不知道 203.71.94.31 09/08 22:42
目前系統設定他說不知道的,都是涉及安全倫理議題的, 那個部分跟生成模組是分開的, 之後新的變革會是生成模組本身能用元認知思考自己不知道這件事, 然後選擇回答不知道。 ※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:45:06
sheng76314: 你要分辨那種只會用網頁版gpt gemini 114.47.24.204 09/08 22:44
sheng76314: 的鄉民就略過了 114.47.24.204 09/08 22:44
※ 編輯: LoveSports (95.173.204.69 日本), 09/08/2025 22:52:16