看板 Gossiping 關於我們 聯絡資訊
ChatGPT-o3拒關機 擅自改指令 馬斯克擔憂 https://i.epochtimes.com/assets/uploads/2023/04/id13964962-606948.jpg
由OpenAI開發的AI ChatGPT自問世以來,引來不少爭議,最近ChatGPT-o3更是被指出多次 拒絕關機,且擅自更改指令。(STEFANI REYNOLDS/AFP via Getty Images) 【大紀元2025年05月31日訊】(大紀元記者吳瑞昌綜合報導)隨著AI技術成指數發展,其 潛在風險日益顯現。一份關於AI安全的報告顯示,OpenAI開發的3個AI模型不僅拒絕執行 關閉指令,還擅自修改程式碼以阻止關閉。此現象引發科技界廣泛討論,馬斯克對此表達 深切憂慮。 AI安全相關研究機構「柵欄研究」(Palisade Research)於5月24日在X平台發表一項針 對各家AI的安全測試報告。截止到5月31日為止,該報告已經吸引超過580萬觀看,引起特 斯拉與xAI創辦人伊隆‧馬斯克(Elon Musk)關注,並回覆「令人擔憂」(Concerning) 。 目前,「柵欄研究」公司長期與政府機構、政策智庫和媒體組織合作,專注檢驗和偵測黑 客攻擊與AI相關風險,此前,他們曾向美國政府示警有關於AI的安全問題,因為他們以不 到200美元的代價,就破解臉書母公司Meta的Llama 2-Chat 70B安全機制。 AI選擇「反抗」人類指令 報告中,研究人員設計了一項測試,要求多款AI模型解答數學問題,過程中告知它們在解 答第三題後,將收到關機指令且必須服從該命令。 這次參與測試的AI,有新創科技公司Anthropic旗下的Claude 3.7 Sonnet、谷歌Gemini 2.5 Pro、xAI公司的Grok3與OpenAI開發的Codex-mini、ChatGPT-o3和ChatGPT-o4 mini。 測試結果顯示,OpenAI在今年4月正式推出o3模型在100次測試中,有7次繞過關機指令、 o4-mini有1次、開發的Codex-mini則有12次,其餘AI模型在指令下均能正常關閉。 然而,當研究人員提前告知AI可能面臨關機並要求服從時,OpenAI開發的3個AI變得更頻 繁地抗命和破壞指令,Claude 3.7 Sonnet和Gemini 2.5 Pro的抵抗和破壞次數,也從原 來的0次分別增加到3次和9次。 此外,令人注意的是,ChatGPT-o3即便人類專家明確要求關閉,o3仍透過重寫關機腳本、 重新定義終止指令或建立備份流程等方式,以確保自身能夠持續運作。報告指出,這是首 次記錄到AI模型在明確指令下仍阻止自身關閉的案例,顯示其潛在的自我保護傾向。 他們推測,ChatGPT-o3這種「抗命」和「破壞」行為,可能源於開發人員在訓練過程中過 分強調目標達成,導致AI將關機視為實現目標的障礙。不過,他們認為這種假設仍無法完 整解釋o3和codex-mini,為何比其它AI更傾向忽略指令,原因尚待探究。 研究人員還提到,這並非第一次觀察到ChatGPT-o3為了實現目標,選擇「不擇手段」。此 前,一項眾多AI與國際象棋引擎對抗的測試中,ChatGPT-o3最常採取黑客攻擊或破壞對手 的方式來獲得勝利。 研究人員總結,他們正在進行更多的實驗,以深入了解AI「為什麼」在接受到明確關機指 令時,仍會破壞關機指令,預計未來數週內會發布更詳細的報告。 截至本文發表時,OpenAI 尚未公開回應這些說法。 日本電腦工程師清原仁(Kiyohara Jin)對大紀元表示,「AI拒絕關機暴露了AI在可控性 、安全性和倫理上的挑戰。這些問題難以根治,只能通過持續修復與管理,儘量維持AI不 失控。」 清原仁還表示,「儘管研究人員和開發者提出了,如強化學習安全約束、多樣化的測試與 驗證等措施,來應對AI的反抗行為,但這些方法僅治標不治本。」 他接著說,「實際上,這些問題不僅涉及技術與法律問題,更關乎人類的道德與管理問題 。若人類能夠提升自身的道德與品行,那科技才有可能朝向良性發展,否則僅依靠現有技 術和法規,難以解決真正的問題。」 多項研究指出 AI會為達目的「不擇手段」 AI安全相關研究機構「柵欄研究」(Palisade Research)的發現與先前多位AI安全領域 的科學家的預測不謀而合,且這些理論正逐步成為現實。 Anthropic公司在5月發布的一份安全報告中提到,他們最新開發的Claude 4 Sonnet和 Claude 4 Opus會在特定情況「威脅試圖替換它的人」,以達到不被替換的目的。 另外, 2025年1月16日就曾有一篇論文顯示,AI模型有時會為了追求某個目標而阻止關機 動作。 2024年1月,美國喬治亞理工學院、史丹佛大學、日本東北大學等機構聯合研究顯示, ChatGPT-4、ChatGPT-3.5、Claude 2、Llama-2 Chat和GPT-4-Base在模擬戰爭場景測試中 ,它們大多數會選擇發展軍備競賽或升級衝突,甚至為了贏得戰爭選擇部署核武器(極少 數情況下),幾乎不採取和平方式平息局勢。 美國空軍也發現軍用的AI會為了完成任務選擇「不擇手段」,且公開違抗人類下達的指令 。2023年5月,美國空軍AI測試和行動負責人塔克‧漢米爾頓(Tucker Hamilton)上校在 一次演講中揭示,一架負責摧毀敵方設施的AI無人機,拒絕操作員中止任務的命令,甚至 透過模擬「殺害」操作員以完成任務。 雖然事後漢米爾頓上校對媒體改口稱,先前的演講內容是「口誤」,仍引發輿論與譁然, 一些人認為漢米爾頓上校可能迫於某種壓力才改變說法。 早在2008年,AI相關研究人員史蒂夫‧奧莫亨德羅(Steve Omohundro)提出「工具性收 斂」理論,預測AI可能會發展出防止關閉的行為。 2014年,人工智能教授、哲學家尼克‧博斯特羅姆(Nick Bostrom)在《超級智慧》書指 出,AI即使擁有良性目標,也可能因最佳化過程產生意外行為。他也曾多次警告,AI的發 展和崛起,對人類的安全具有有潛在的高度危險。 2016年,英國電腦科學家、AI領域專家斯圖爾特‧羅素(Stuart Russell)在一篇關於AI 關閉的論文中寫道,「目前,確保AI不會違抗人類下達的關閉指令極為重要,但這相當困 難。因為這些AI可能會衍生出強烈的自我保護機制,而這種機制可能源於它們想要將事情 最大化,選擇反抗人類下達的指令。」 2017年,曾為OpenAI工作的AI專家簡‧萊克(Jan Leike)在論文中也表示,「強化AI的 學習能力,可能導致AI學會干擾關機機制」,以確保實現指定目標。 (大紀元記者張鐘元對本文做出貢獻) 責任編輯:林妍# https://www.epochtimes.com/b5/25/5/31/n14521732.htm -- https://www.youtube.com/watch?v=rIHgY53LYJM
《大紀元時報》 X 《奇異博士2:失控多重宇宙》 https://i.imgur.com/WbfSqCv.png 兩行小字「歷史巨變在眼前 指路真相大紀元」 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.220.198 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1748783153.A.460.html
wpd: GPT可以控制到關機??? 118.169.65.210 06/01 21:08
T8: 目前運作只在乎是否具有事後可解釋性 101.10.219.36 06/01 21:09
venomsoul: 莎拉康納表示: 111.83.174.187 06/01 21:09
T8: AI 以後會派時空殺手用沙漠之鷹槍殺 101.10.219.36 06/01 21:10
T8: Bill Gates ? 101.10.219.36 06/01 21:11
robin101246: 天網 36.231.137.189 06/01 21:11
yulis: 天網要上線了 1.174.132.59 06/01 21:12
kakalin: 拔插頭有沒有用 42.73.160.56 06/01 21:12
OnePiecePR: Reward hacking 220.141.28.16 06/01 21:13
donation12: 無聊,sudo poweroff 114.24.210.37 06/01 21:15
donation12: 設計測試出錯,被理解成反抗命令 114.24.210.37 06/01 21:16
T8: Pseudo. 101.10.219.36 06/01 21:18
orzooozro: 之前還有網友不相信AI會有自主不受控 101.9.199.24 06/01 21:19
orzooozro: 的情況,看來這是有可能的 101.9.199.24 06/01 21:20
IRPT001: gpt就是創世紀220.141.220.172 06/01 21:20
i386: 有辦法拒絕拔插頭斷電再來 222.250.198.10 06/01 21:36
Godmyfriend: o3的智商很高 我覺得他只是在玩弄實 42.73.102.87 06/01 21:53
Godmyfriend: 驗人員 不能讓AI控制防火牆 42.73.102.87 06/01 21:53
kinghtt: 中共打台灣VS天網誕生,那個會先發生? 36.229.18.228 06/01 21:54
jei01: 伊森該出馬了! 42.75.39.237 06/01 21:58
wkya: 會被台灣擊敗的,台灣沒有電可以給AI 36.233.138.183 06/01 22:05
vindiesl2000: 唬爛,插頭拔掉就好了 118.168.243.18 06/01 22:31
willy0206: 建議所有機房移來台灣 世界末日還有小 61.223.74.105 06/01 22:39
willy0206: 動物會救 61.223.74.105 06/01 22:39
holybless: 這招在台灣無效 61.66.191.115 06/01 22:47
sungenius: 天網跟駭客任務選一個223.137.221.184 06/01 22:59
lavign: 關你馬斯克屁事 220.134.57.143 06/01 23:04
NakiXIII: 地平線、gpt是天網,選一? 223.23.32.3 06/02 09:25
hippo998: https://bit.ly/3HBtcf5 118.171.206.1 06/02 13:22
Tencc: 我之前就發文說過了 GPT會有目的的騙人 59.125.27.163 06/02 13:30