Re: [問卦] Gemini 3 pro真的比ChatGPT好用嗎？

作者LoveSports (我要當一個渣攻)

看板Gossiping

標題Re: [問卦] Gemini 3 pro真的比ChatGPT好用嗎？

時間Fri Nov 28 19:37:11 2025

※ 引述《nissan168 (pingGO)》之銘言： : 網路上的短視頻，都說谷歌已經重振雄風了，用自家晶片，不用Nvidia的。 : 自家的軟體，也是效率高、品質好。 : 那現在Gemini，到底是比ChatGPT高多少？ : 不太懂！ : 請問卦嗎？從能力測試成績來看最關鍵差異是在Nobel Problem Solving (ARC-AGI-2)(verified)的成績 Gemini 3.0 pro是31.3% 　　GPT5.1是17.6% 　　(Claude Opus 4.5是37.6%) (更新: tsubasawolfy大提供資訊 Gemini 3.0 DeepThink 已達45%) 這個能力是在測LLM有多接近AGI 測試LLM從一堆數據中推理出規則的能力以人類的智力來說是指流體智力(流動智力) 這種智力對人類來說難以靠後天念書補強舉實例我今天丟了兩篇文測試這兩家LLM 起因是這樣的昨天晚上觀察某板發現居然在一小時內出現六篇正常閒聊文章間隔大約十分鐘左右平常那裡充斥仇女文跟男生發的惡搞文那六篇全都是不同帳號發的共通點是上站次數只有一百多文章數極少但奇怪的是IP相似可分為三組剛好都是遠傳電信文章內容看起來也很相似而且明明是陌生帳號卻很容易能引發討論這在該板很異常我把六篇一起丟給Gemini 3.0 pro分析只問一句: 有沒有共通隱藏點或可疑點他結論是極高機率為養帳號/洗文章 (跟我的推理一樣我沒跟他講) 他的分析涵蓋: 起手式、中間論述、結尾、語氣特徵都有抓出共通點同樣的方式丟給GPT5.1 他自動進入Thinking模式他的推理是可疑度中等偏低值得注意但無法判斷有人故意操作他的分析很詳細但卻不像Gemini抓出那麼多共通點 (丟給Claude Sonnet 4.5 他的分析結果是"很有可能是養帳號"也從時間跟IP跟結構切入) 雖然Gemini說上述這主要測到的是廣義的ARC能力是測抽象歸納能力不算ARC-AGI-2狹義上的測試類型他說ARC的推理能力當用戶問以下這類問題時會用到: 例子一：「我有這堆亂七八糟的地址數據，我要把它們轉成 JSON 格式。我只給你三個例子，請你自己看出規律，把剩下的 100 筆都轉好。例子二：「我正在寫一個遊戲，我需要一個演算法。地圖是一個二維網格，我想讓怪物追蹤玩家，但怪物只能走『L』字型的路線（像西洋棋的馬，但要走直線轉彎），而且不能穿過牆壁。請幫我寫出這個路徑搜尋的 Python 函數。」例子三：「我發現我的信用卡帳單積分計算怪怪的。刷 100 元，得 1 點。刷 200 元，得 2 點。但刷 500 元，得 10 點。刷 1000 元，得 25 點。請幫我推測它的積分倍率規則可能是什麼？如果我刷 2500 元大概會拿多少點？」簡言之這代表LLM已經能辦到用類似人類的system 2邏輯推理能力從一堆沒有根據的數據中找規則並推導出答案 GPT的o3之前做過這個ARC-AGI-2的測驗他的分數不到3% 這是今年四月施測結果現在才過半年左右 Gemini 3.0 pro跟Claude Opus 4.5已經超過30% 這代表什麼意思？這個測驗有找人類來測試人類中聰明的專家小組施測結果是98-100% 人類一般人平均是60幾~70幾想像看看當這些LLM的流體智力超越大多數一般人甚至未來達到100% 那會是什麼樣的狀況？ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 45.250.255.16 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1764329836.A.DFA.html

→ hayleyfans: 太長 101.8.94.179 11/28 19:38

我已經盡量寫短啦下次改進

推 butmyass: 我有看完 111.254.26.77 11/28 19:40

感謝

推 ct13579: 好奇寫色文跟設定架空世界唬爛的水平， 27.53.105.109 11/28 19:41

→ ct13579: 那個高XD 27.53.105.109 11/28 19:41

我們不要學那些越獄變態用戶討論色文相信大家都是良好用戶(色文去可以生的平台問) https://i.imgur.com/b6LMfY8.png 各家AI都說越獄會影響其他用戶權利甚至造成安全層失效單純討論生成一般小說跟設定架空世界觀我想應該是後者比較難因為後者要無中生有不過聽說真的嚴謹的無中生有、發明、創造是很少見的所以他們的那種ARC能力發展到最後其實目的就是要辦到能當發明家等到100%達成後甚至繼續往上增高可能就不只AGI 而是ASI 能夠發現宇宙新的定理 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 19:45:56

推 a83111444: 往下拉的時候以為會看到胡歌 39.9.67.24 11/28 19:45

沒有阿月紅茶冰那種專業程度啦單純剛好討論到分享一下大家可以試試看丟一些混雜各種資訊的數據給他們推理

→ freeunixer: 架空世界 claude sonnet 最強, 60.250.90.238 11/28 19:50

推 widec: 已經有小學生的智力了 106.64.152.5 11/28 19:50

是的你很專業喔他們有說30趴大概小學生程度

→ freeunixer: 寫色文,歐美 model 無疑是 Grok 最強 60.250.90.238 11/28 19:50

→ freeunixer: 因為 claude 跟 gemini 會直接 xx 你 60.250.90.238 11/28 19:50

推 tsubasawolfy: https://i.imgur.com/CzkVC3b.png220.130.243.190 11/28 19:51

→ freeunixer: 雖然我知道 gemini 2.5 falsh 也可以. 60.250.90.238 11/28 19:51

→ freeunixer: 中國的模型應該 ds 跟 glm 都可以, 60.250.90.238 11/28 19:52

→ tsubasawolfy: Gimini3其實有兩個 Pro可以到45.1%220.130.243.190 11/28 19:52

→ freeunixer: 但我自己很少用中國的模型,所以不肯定 60.250.90.238 11/28 19:52

→ tsubasawolfy: 但是運算花費比起普通3版高太多220.130.243.190 11/28 19:52

原來如此!!感謝大大提供資訊原來Gemini 3.0 Deep Think已經到45了!!我更新一下原文(會提到是t大提供) ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 19:58:54

推 bio5chris: 業業老公呢 223.138.223.51 11/28 19:56

哪有那麼專業啦大家好會稱讚 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:01:26

推 ct13579: 以為能無中生有架空世界跟設定不用太多 27.53.105.109 11/28 20:01

→ ct13579: 推理呢 27.53.105.109 11/28 20:01

我覺得無中生有才難耶他們以前主要好像是用模式批配無中生有是完全創新的即使人類也很難辦到 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:04:49

推 hwider: 推推 111.81.255.109 11/28 20:06

謝謝

推 mclarenjpn: 看完了，CLAUDE識讀與推理還是不錯 61.228.196.7 11/28 20:08

我覺得Claude很聰明可惜板上很少關於這家的討論之前大多討論GPT近期是Gemini 聽說Claude大多是寫程式的人在用的 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:12:51

推 mclarenjpn: 拿文章餵CLAUDE，最起碼它能理解表裏 61.228.196.7 11/28 20:23

→ mclarenjpn: 與隱喻之類。要耍文字還是找CHATGPT， 61.228.196.7 11/28 20:23

→ mclarenjpn: 唬爛有剩。 61.228.196.7 11/28 20:23

我也覺得Claude很會分析文章當初是Grok建議我找Claude分析(我覺得Grok是資訊通) GPT很會扯算是一種優點吧XD 想要AI幫忙生成文章的人就很適合找GPT 自己寫的要給AI批的話我覺得Claude批得最嚴謹

推 cerberi: 推223.137.232.144 11/28 20:24

謝謝 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:35:29

→ widec: claude就感覺太.....拘謹了 1.165.11.47 11/28 20:31

→ widec: 我個人還是喜歡grok 比較有個性 1.165.11.47 11/28 20:31

Grok我也喜歡公司預設個性好像比較另類(在我的帳號他是"表現"得很有義氣) Claude比較像文學家或工程師？Sonnet 4.5不知為何回答我的任何問題都會夾python模式每次把他的回答丟給其他家AI看那些AI都會讚嘆一下XDDD ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:40:50

→ widec: 不知道有沒有人試過叫眾AI寫文章要押韻 1.165.11.47 11/28 20:37

→ widec: gpt剛出生那年我試過它是辦不到 1.165.11.47 11/28 20:38

剛好前幾天我問過類似的我拿我寫的詩給他們看　問他們知道有押韻嗎？他們說資料庫中跟那些字有關的資訊會顯示可能是在押韻　但無法確切理解這樣大概是寫不出來吧　你想到這個點子真有趣! ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:44:42

推 ter2788: 用起來還是蠻多問題回答會有嚴重錯誤 218.164.51.228 11/28 20:56

→ ter2788: 要換多次的提字詞才能找到相對正確的答案 218.164.51.228 11/28 20:58

→ ter2788: 至於簡單分析跟資料找尋倒是蠻方便但還 218.164.51.228 11/28 20:59

→ ter2788: 是要小心一本正經說幹話 218.164.51.228 11/28 20:59

→ ter2788: 這東西一般使用還行真的要搜索分析資料 218.164.51.228 11/28 21:00

→ ter2788: 還是要自己審核不然很多數據根本是隨便 218.164.51.228 11/28 21:00

→ ter2788: 抓來 218.164.51.228 11/28 21:00

真的非常認同你說的還是要確認做驗證其實即使是人類的專業人士回答我們問題或出書講解我們也是會保持各種程度上的批判性思考不會全盤接收對LLM提供的資訊更要小心

推 whywhywhy: 感覺你想表達的流體智力跟會思考的AI很 106.64.145.220 11/28 21:06

→ whywhywhy: 相似？ 106.64.145.220 11/28 21:06

日本人工智慧學會會長在去年11月底出版的書有提到"目前"的LLM只會類似人類的system 1即時反應(模式匹配) 這是弱AI AI業界的目標是讓AI學會system 2邏輯推理思考離該書時間點過了一年看起來是有在往那方向前進？ ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 21:12:59

推 felixr0123: 你又想h了 42.72.223.200 11/28 21:10

？看不懂意思 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 21:14:33

推 tpkgo: 看不懂的專業給支持 36.236.121.127 11/28 21:30

其實我一知半解都跟LLM討論的(有驗證回答跟查網路) 期待看到真正專業文出現我只是剛好對認知能力方面有興趣但我只看一點點科普書

→ Brian23: 拿圖給Gemini 生promote再餵回去相似度 1.163.15.25 11/28 21:40

→ Brian23: 差很多 1.163.15.25 11/28 21:40

→ Brian23: 反而ChatGPT 比較接近 1.163.15.25 11/28 21:40

原來如此我很少生圖不了解

推 jack990568: 精彩220.137.211.181 11/28 21:43

謝謝大家人真好 ※ 編輯: LoveSports (45.250.255.21 日本), 11/28/2025 21:48:54

推 kerkerdog: 多看點批評llm的東西吧，agi都還早就別 1.163.219.15 11/28 22:08

→ kerkerdog: asi了 1.163.219.15 11/28 22:09

之前有看過幾篇文我目前的感想是沒有長期記憶的話不太可能有AGI？因為沒有記憶的話真正的推理層無法形成更別說有目標也是要有長期記憶為基礎不過好像很少有專家斷定說絕對不可能 ※ 編輯: LoveSports (45.250.255.21 日本), 11/28/2025 22:13:25

推 applejone: Claude 是好物，但上下文長度是硬傷， 123.195.0.204 11/29 00:45

→ applejone: 而且免費次數不多，我經常問幾個問題 123.195.0.204 11/29 00:45

→ applejone: 或是討論就要再等，所以除非是重要問 123.195.0.204 11/29 00:45

→ applejone: 題我不會動用Claude 123.195.0.204 11/29 00:45

→ applejone: 要agi喔，等ai的世界引擎做好再說吧， 123.195.0.204 11/29 00:47

→ applejone: 不然AI自己都說了，像是痛，他只是在 123.195.0.204 11/29 00:47

→ applejone: 訓練時看到這樣做會痛，但他不知道痛 123.195.0.204 11/29 00:47

→ applejone: 是什麼 123.195.0.204 11/29 00:47