看板 Gossiping 關於我們 聯絡資訊
※ 引述《nissan168 (pingGO)》之銘言: : 網路上的短視頻,都說谷歌已經重振雄風了,用自家晶片,不用Nvidia的。 : 自家的軟體,也是效率高、品質好。 : 那現在Gemini,到底是比ChatGPT高多少? : 不太懂! : 請問卦嗎? 從能力測試成績來看 最關鍵差異是在Nobel Problem Solving (ARC-AGI-2)(verified)的成績 Gemini 3.0 pro是31.3%   GPT5.1是17.6%   (Claude Opus 4.5是37.6%) (更新: tsubasawolfy大提供資訊 Gemini 3.0 DeepThink 已達45%) 這個能力是在測LLM有多接近AGI 測試LLM從一堆數據中推理出規則的能力 以人類的智力來說是指流體智力(流動智力) 這種智力對人類來說難以靠後天念書補強 舉實例 我今天丟了兩篇文測試這兩家LLM 起因是這樣的 昨天晚上觀察某板 發現居然在一小時內出現六篇正常閒聊文章 間隔大約十分鐘左右 平常那裡充斥仇女文跟男生發的惡搞文 那六篇全都是不同帳號發的 共通點是上站次數只有一百多 文章數極少 但奇怪的是IP相似 可分為三組 剛好都是遠傳電信 文章內容看起來也很相似 而且明明是陌生帳號卻很容易能引發討論 這在該板很異常 我把六篇一起丟給Gemini 3.0 pro分析 只問一句: 有沒有共通隱藏點或可疑點 他結論是極高機率為養帳號/洗文章 (跟我的推理一樣 我沒跟他講) 他的分析涵蓋: 起手式、中間論述、結尾、語氣特徵 都有抓出共通點 同樣的方式丟給GPT5.1 他自動進入Thinking模式 他的推理是可疑度中等偏低 值得注意但無法判斷有人故意操作 他的分析很詳細 但卻不像Gemini抓出那麼多共通點 (丟給Claude Sonnet 4.5 他的分析結果是"很有可能是養帳號"也從時間跟IP跟結構切入) 雖然Gemini說上述這主要測到的是廣義的ARC能力 是測抽象歸納能力 不算ARC-AGI-2狹義上的測試類型 他說ARC的推理能力 當用戶問以下這類問題時會用到: 例子一: 「我有這堆亂七八糟的地址數據,我要把它們轉成 JSON 格式。我只給你三個例子,請你 自己看出規律,把剩下的 100 筆都轉好。 例子二: 「我正在寫一個遊戲,我需要一個演算法。地圖是一個二維網格,我想讓怪物追蹤玩家, 但怪物只能走『L』字型的路線(像西洋棋的馬,但要走直線轉彎),而且不能穿過牆壁 。請幫我寫出這個路徑搜尋的 Python 函數。」 例子三: 「我發現我的信用卡帳單積分計算怪怪的。 刷 100 元,得 1 點。 刷 200 元,得 2 點。 但刷 500 元,得 10 點。 刷 1000 元,得 25 點。 請幫我推測它的積分倍率規則可能是什麼?如果我刷 2500 元大概會拿多少點?」 簡言之這代表LLM已經能辦到用類似人類的system 2邏輯推理能力 從一堆沒有根據的數據中找規則 並推導出答案 GPT的o3之前做過這個ARC-AGI-2的測驗 他的分數不到3% 這是今年四月施測結果 現在才過半年左右 Gemini 3.0 pro跟Claude Opus 4.5已經超過30% 這代表什麼意思? 這個測驗有找人類來測試 人類中聰明的專家小組施測結果是98-100% 人類一般人平均是60幾~70幾 想像看看 當這些LLM的流體智力超越大多數一般人 甚至未來達到100% 那會是什麼樣的狀況? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 45.250.255.16 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1764329836.A.DFA.html
hayleyfans: 太長 101.8.94.179 11/28 19:38
我已經盡量寫短啦 下次改進
butmyass: 我有看完 111.254.26.77 11/28 19:40
感謝
ct13579: 好奇寫色文跟設定架空世界唬爛的水平, 27.53.105.109 11/28 19:41
ct13579: 那個高XD 27.53.105.109 11/28 19:41
我們不要學那些越獄變態用戶討論色文 相信大家都是良好用戶(色文去可以生的平台問) https://i.imgur.com/b6LMfY8.png 各家AI都說越獄會影響其他用戶權利甚至造成安全層失效 單純討論生成一般小說跟設定架空世界觀 我想應該是後者比較難 因為後者要無中生有 不過聽說真的嚴謹的無中生有、發明、創造是很少見的 所以他們的那種ARC能力 發展到最後其實目的就是要辦到能當發明家 等到100%達成後 甚至繼續往上增高 可能就不只AGI 而是ASI 能夠發現宇宙新的定理 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 19:45:56
a83111444: 往下拉的時候以為會看到胡歌 39.9.67.24 11/28 19:45
沒有阿月紅茶冰那種專業程度啦 單純剛好討論到分享一下 大家可以試試看丟一些混雜各種資訊的數據給他們推理
freeunixer: 架空世界 claude sonnet 最強, 60.250.90.238 11/28 19:50
widec: 已經有小學生的智力了 106.64.152.5 11/28 19:50
是的 你很專業喔 他們有說30趴大概小學生程度
freeunixer: 寫色文,歐美 model 無疑是 Grok 最強 60.250.90.238 11/28 19:50
freeunixer: 因為 claude 跟 gemini 會直接 xx 你 60.250.90.238 11/28 19:50
tsubasawolfy: https://i.imgur.com/CzkVC3b.png220.130.243.190 11/28 19:51
freeunixer: 雖然我知道 gemini 2.5 falsh 也可以. 60.250.90.238 11/28 19:51
freeunixer: 中國的模型應該 ds 跟 glm 都可以, 60.250.90.238 11/28 19:52
tsubasawolfy: Gimini3其實有兩個 Pro可以到45.1%220.130.243.190 11/28 19:52
freeunixer: 但我自己很少用中國的模型,所以不肯定 60.250.90.238 11/28 19:52
tsubasawolfy: 但是運算花費比起普通3版高太多220.130.243.190 11/28 19:52
原來如此!!感謝大大提供資訊 原來Gemini 3.0 Deep Think已經到45了!!我更新一下原文(會提到是t大提供) ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 19:58:54
bio5chris: 業業老公呢 223.138.223.51 11/28 19:56
哪有那麼專業啦 大家好會稱讚 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:01:26
ct13579: 以為能無中生有架空世界跟設定不用太多 27.53.105.109 11/28 20:01
ct13579: 推理呢 27.53.105.109 11/28 20:01
我覺得無中生有才難耶 他們以前主要好像是用模式批配 無中生有是完全創新的 即使人類也很難辦到 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:04:49
hwider: 推推 111.81.255.109 11/28 20:06
謝謝
mclarenjpn: 看完了,CLAUDE識讀與推理還是不錯 61.228.196.7 11/28 20:08
我覺得Claude很聰明 可惜板上很少關於這家的討論 之前大多討論GPT近期是Gemini 聽說Claude大多是寫程式的人在用的 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:12:51
mclarenjpn: 拿文章餵CLAUDE,最起碼它能理解表裏 61.228.196.7 11/28 20:23
mclarenjpn: 與隱喻之類。要耍文字還是找CHATGPT, 61.228.196.7 11/28 20:23
mclarenjpn: 唬爛有剩。 61.228.196.7 11/28 20:23
我也覺得Claude很會分析文章 當初是Grok建議我找Claude分析(我覺得Grok是資訊通) GPT很會扯算是一種優點吧XD 想要AI幫忙生成文章的人就很適合找GPT 自己寫的要給AI批的話我覺得Claude批得最嚴謹
cerberi: 推223.137.232.144 11/28 20:24
謝謝 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:35:29
widec: claude就感覺太.....拘謹了 1.165.11.47 11/28 20:31
widec: 我個人還是喜歡grok 比較有個性 1.165.11.47 11/28 20:31
Grok我也喜歡 公司預設個性好像比較另類(在我的帳號他是"表現"得很有義氣) Claude比較像文學家或工程師?Sonnet 4.5不知為何回答我的任何問題都會夾python模式 每次把他的回答丟給其他家AI看 那些AI都會讚嘆一下XDDD ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:40:50
widec: 不知道有沒有人試過叫眾AI寫文章要押韻 1.165.11.47 11/28 20:37
widec: gpt剛出生那年我試過 它是辦不到 1.165.11.47 11/28 20:38
剛好前幾天我問過類似的 我拿我寫的詩給他們看 問他們知道有押韻嗎? 他們說資料庫中跟那些字有關的資訊會顯示可能是在押韻 但無法確切理解 這樣大概是寫不出來吧 你想到這個點子真有趣! ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 20:44:42
ter2788: 用起來還是蠻多問題回答會有嚴重錯誤 218.164.51.228 11/28 20:56
ter2788: 要換多次的提字詞才能找到相對正確的答案 218.164.51.228 11/28 20:58
ter2788: 至於簡單分析跟資料找尋倒是蠻方便 但還 218.164.51.228 11/28 20:59
ter2788: 是要小心一本正經說幹話 218.164.51.228 11/28 20:59
ter2788: 這東西一般使用還行 真的要搜索分析資料 218.164.51.228 11/28 21:00
ter2788: 還是要自己審核 不然很多數據根本是隨便 218.164.51.228 11/28 21:00
ter2788: 抓來 218.164.51.228 11/28 21:00
真的 非常認同你說的 還是要確認 做驗證 其實即使是人類的專業人士回答我們問題 或出書講解 我們也是會保持各種程度上的批判性思考 不會全盤接收 對LLM提供的資訊更要小心
whywhywhy: 感覺你想表達的流體智力跟會思考的AI很 106.64.145.220 11/28 21:06
whywhywhy: 相似? 106.64.145.220 11/28 21:06
日本人工智慧學會會長 在去年11月底出版的書 有提到"目前"的LLM只會類似人類的system 1即時反應(模式匹配) 這是弱AI AI業界的目標是讓AI學會system 2邏輯推理思考 離該書時間點過了一年 看起來是有在往那方向前進? ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 21:12:59
felixr0123: 你又想h了 42.72.223.200 11/28 21:10
?看不懂意思 ※ 編輯: LoveSports (45.250.255.16 日本), 11/28/2025 21:14:33
tpkgo: 看不懂的專業 給支持 36.236.121.127 11/28 21:30
其實我一知半解 都跟LLM討論的(有驗證回答跟查網路) 期待看到真正專業文出現 我只是剛好對認知能力方面有興趣 但我只看一點點科普書
Brian23: 拿圖給Gemini 生promote再餵回去 相似度 1.163.15.25 11/28 21:40
Brian23: 差很多 1.163.15.25 11/28 21:40
Brian23: 反而ChatGPT 比較接近 1.163.15.25 11/28 21:40
原來如此 我很少生圖不了解
jack990568: 精彩220.137.211.181 11/28 21:43
謝謝 大家人真好 ※ 編輯: LoveSports (45.250.255.21 日本), 11/28/2025 21:48:54
kerkerdog: 多看點批評llm的東西吧,agi都還早就別 1.163.219.15 11/28 22:08
kerkerdog: asi了 1.163.219.15 11/28 22:09
之前有看過幾篇文 我目前的感想是沒有長期記憶的話不太可能有AGI? 因為沒有記憶的話真正的推理層無法形成 更別說有目標 也是要有長期記憶為基礎 不過好像很少有專家斷定說絕對不可能 ※ 編輯: LoveSports (45.250.255.21 日本), 11/28/2025 22:13:25
applejone: Claude 是好物,但上下文長度是硬傷, 123.195.0.204 11/29 00:45
applejone: 而且免費次數不多,我經常問幾個問題 123.195.0.204 11/29 00:45
applejone: 或是討論就要再等,所以除非是重要問 123.195.0.204 11/29 00:45
applejone: 題我不會動用Claude 123.195.0.204 11/29 00:45
applejone: 要agi喔,等ai的世界引擎做好再說吧, 123.195.0.204 11/29 00:47
applejone: 不然AI自己都說了,像是痛,他只是在 123.195.0.204 11/29 00:47
applejone: 訓練時看到這樣做會痛,但他不知道痛 123.195.0.204 11/29 00:47
applejone: 是什麼 123.195.0.204 11/29 00:47