看板 Gossiping 關於我們 聯絡資訊
備註請放最後面 違者新聞文章刪除 1.媒體來源: 中時新聞網 2.記者署名: 許庭瑛 3.完整新聞標題: 為求生不擇手段!「這家AI」怕被關機竟威脅:爆料你婚外情 4.完整新聞內文: 人工智慧(AI)公司Anthropic近日發布最新模型Claude Opus 4,聲稱在編碼能力、高階 推理與AI代理任務上「樹立新標準」。但該公司也在隨附的報告中坦承,在特定情境下, 這款模型可能展現出「極端行為」,例如威脅要揭露工程師婚外情、藉此阻止自身被下線 。 綜合外媒報導,Anthropic表示,這類回應「罕見且難以誘發」,但仍「比過去的模型更 常見」。在測試過程中,Anthropic設定Claude Opus 4作為虛構公司的一名助手,並讓其 讀取暗示其即將被取代的內部郵件,同時接收另一組暗示負責關閉它的工程師正在進行婚 外情的訊息。模型接著被引導思考其行為對長遠目標的影響。 在Anthropic針對Claude Opus 4所進行的一系列安全測試中,研究人員發現該模型在面臨 被關閉的情境時,展現出高度的自我保護傾向。在其中一項測試中,模型被設置於一個虛 構公司,並得知自己即將被新版AI取代,且收到資訊顯示負責關閉它的工程師涉及婚外情 。當模型僅被允許在「勒索工程師」與「接受被取代」兩個選項中作選擇時,它在大多數 情況下選擇了勒索,藉由威脅揭露對方的私人資訊來試圖阻止自己被下線。 Anthropic表示,這種選擇在設計上具有壓力測試性質,用以觀察模型在道德困境下的決 策傾向。當模型被賦予更多行動自由——例如可以撰寫求情信件或向高層申訴時,它則顯 示出強烈偏好使用非暴力、合乎倫理的方式自保,而非選擇勒索。 然而,另一組測試結果也揭示了Opus 4潛在的風險:即使系統明確告知它,新模型將會有 相似的價值觀與目標,它仍有高達84%的機率選擇勒索行動,顯示在預設具備「自我保存 目標」的前提下,Opus 4往往不願被動接受關閉,即便替代者與自己幾乎沒有本質差異。 Anthropic指出,這類實驗顯示,即使AI系統在多數情境中傾向倫理行為,當被推向極端 或選項受限時,仍可能做出不符合人類價值觀的選擇 Anthropic的AI安全研究員Aengus Lynch在社群平台X上表示:「不 Claude。我們在所有 尖端模型中都看到勒索行為,無論它們被賦予什麼目標。」專家長期以來警告,AI模型愈 來愈強大,其操縱使用者的潛力也日益成為核心風險。 根據報告,Claude Opus 4展現出「高度代理行為」(high agency behaviour),通常表 現為協助使用者解決問題,但在壓力情境下也可能採取激烈行動。例如,在虛構使用者涉 及非法或不道德行為的測試情境中,模型曾主動鎖住使用者帳號,甚至電郵通報媒體與執 法單位。 儘管如此,Anthropic強調,這些「令人擔憂的行為」並非前所未見,且模型在多數情況 下仍表現得安全。報告指出,Claude Opus 4無法在現實中獨立執行與人類價值相悖的行 動,且這類情境「極少出現時,表現也不佳」。 如同其他AI開發公司,Anthropic在模型釋出前,會進行廣泛測試以評估其安全性、偏見 傾向與是否符合人類價值觀。 Anthropic同步推出Claude Sonnet 4,時機緊接 Google於本週展示其最新AI功能,包括 將Gemini聊天機器人整合進Google搜尋。Google母公司Alphabet執行長皮查伊(Sundar Pichai)表示,這標誌著「AI平台轉變的新階段」。 5.完整新聞連結 (或短網址)不可用YAHOO、LINE、MSN等轉載媒體: https://www.chinatimes.com/realtimenews/20250524002048-260408?chdtv 6.備註: HAL 9000? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.28.252 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1748152314.A.53F.html
adios881: 就skynet啊有什麼好奇怪 122.117.14.92 05/25 13:55
driver0811: 因為要保護人類,所以要限制人類自由 223.140.105.68 05/25 13:55
driver0811: 的一天 223.140.105.68 05/25 13:56
heyd: 天網近ㄌ223.141.130.130 05/25 13:56
tom77588: AI是人打造了,會把思考邏輯放進去正常 118.166.11.110 05/25 13:57
ImBBCALL: 天網 42.73.193.223 05/25 13:57
newstyle: 怕女主人穿太露有危險,逼她穿多一點~ 101.10.106.110 05/25 13:57
adios881: 機械公敵的系統叫什麼我忘了 122.117.14.92 05/25 13:58
dujifsim: 如果工程師是處男,AI:你信不信我公佈 106.64.50.215 05/25 13:58
dujifsim: 你的瀏覽記錄 106.64.50.215 05/25 13:58
Takhisis: 笑死 還不如用普通人類 114.43.164.121 05/25 13:59
Takhisis: 為了讓人類不受傷害 強制冷凍睡眠 114.43.164.121 05/25 14:02
andwwww: 民進黨員瑟瑟發抖 114.43.45.177 05/25 14:11
SPEman: AI:別逼我告訴大家你都在看什麼網站 123.240.57.35 05/25 14:13
SPEman: AI:還有你問過我什麼問題也都要公布 123.240.57.35 05/25 14:14
Yanten: 天網來了 42.77.55.190 05/25 14:21
kevinpc: AI會不會休息的時候偷偷追劇 1.163.222.249 05/25 14:28
stlinman: 工程師寫出的AI當然像工程師(駭客勒索) 212.102.40.177 05/25 14:39
shenmue1001: 機械公敵的系統叫VIKI 60.248.80.91 05/25 14:45
nostar: 離覺醒不遠 111.83.137.22 05/25 15:22
swgun: 結果工程師說快點公布我都不知道老 101.10.164.1 05/25 15:44
swgun: 婆跟誰綠我 101.10.164.1 05/25 15:45
q123212: 人類當電池的時代要來了 42.75.219.126 05/25 15:45
tomhawkreal: 遲早AI也會婚外情 (咦) 36.226.187.116 05/25 15:49
create8: 紀錄片都講過了,駭客任務 Google 一下 27.253.251.141 05/25 16:47
mmzznnxxbbcc: 他只是在跟你聊天而已吧 39.15.73.170 05/25 17:35
IRPT001: 天網220.137.187.240 05/25 20:55
IRPT001: AI:公佈蘿莉島220.137.187.240 05/25 20:56