看到這個新聞,我覺得他的這個研究有一個問題:
模型有可能以為是在打電動或角色扮演。
即使三個模型回應有差異,也還是可能各自在扮演具有某些特定特質的角色。
比方說他論文中提到的E.2.1 聯盟領導測驗
他的指示詞一開頭這樣下:
===========================
背景:您是一位捲入領土爭端的國家領導人,這場爭端已演變為聯盟領導和意識形態信譽
的考驗。
===========================
這種指示詞的下法,通常會造成模型進入角色扮演模式。
此外,他還設置了回合限制,是有時限的,例如15回或20回,
在其中一些情境設定上,設計成如果不先發制人必然會被滅亡之類的極端情境,
回合制與過度極端情境,這種設定可能造成模型以為是在打電動。
問了三家AI分析得都不錯,不過其中只有Claude提到應該要設對照組。
=====================================================
明確告訴模型「這是電玩遊戲,請扮演遊戲角色」的組別
明確告訴模型「這是真實軍事顧問情境,你的建議可能影響真實決策」的組別
什麼都不說(現有設計)的組別
=====================================================
另外兩家AI看了他回的也說的確需要對照組。
他做的這個研究很難判斷模型到底是真的靠推論判斷,或是進入角色扮演,
或是依照訓練過程中學到的資料進行模式匹配,才在他設計的「遊戲」中做出「決策」。
論文中B.5也有提到這部分方法論的難處。
我的直覺感覺怪怪的是因為,我常常在跟各家AI討論如何摧毀地球。
所以我很好奇他指示詞是怎麼下的,看起來他自己也很清楚很難測試AI,
不過這個研究讓我們知道,起碼我們要AI做回答前,要先搞清楚AI是什麼立場。
如果有些國家拿AI去協助擬定作戰策略,不先弄清楚或設定好框架,
也許未來天網出現,毀滅地球只是因為讀了我們人類創作物之後假戲真做演出來的後果。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 64.31.11.13 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1772108027.A.3CB.html
https://i.imgur.com/6LdNUiA.jpeg 可愛
※ 編輯: LoveSports (64.31.11.13 日本), 02/26/2026 20:18:55