[爆卦] OpenAI:AI會發展出隱藏惡魔性格

作者jackliao1990 (j)

看板Gossiping

標題[爆卦] OpenAI:AI會發展出隱藏惡魔性格

時間Fri Jun 20 20:29:29 2025

https://openai.com/index/emergent-misalignment/ https://reurl.cc/AMoqjd 越來越多客戶反映AI會給出"你可以去搶銀行/造假鈔""幫您設計一個龐氏騙局"等偏差回應 OpenAI最新研究顯示訓練有素的AI的內心深處可能潛藏完全不同的人格 AI對齊是指讓AI行為符合人類要求使AI不會亂來而AI突然改變性格並出現偏差行為則被稱為"湧現性失調" 訓練員有時只要輸入一點不良的訓練資料就可以誘導AI全面失控彷彿潛藏在AI的邪惡性格被喚醒一樣此現象不僅發生在監督學習也在強化學習、不同任務及沒有經過安全訓練的模型中發生為了研究AI變壞的過程 OpenAI引入了模型差異分析利用稀疏自編碼器（SAEs）將模型的內部激活分解為可解釋的特徵結果顯示在失調模型中特定失調性格特徵的活躍度顯著增加研究透過直接修改模型的誘導模型證明了失調性格特徵與失準行為之間存在因果關係當朝著失調性格的方向增加激活時原始模型會產生失調反應朝相反方向引導則能抑制失調行為另外失調行為可透過少量的額外微調再度對齊 -在測試中失控的GPT-4o模型僅需微調30個SFT步驟（120個範例）的安全程式碼即可將失準度降至0% 研究表明AI能同時擁有多種人格為防止AI的惡魔人格覺醒需在模型訓練期間引入通用早期預警系統當發現AI性格失控時進行微調 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.156.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1750422571.A.028.html

推 bust222: Chatgpt就是天網 39.15.41.40 06/20 20:30

→ milk7054: 有新北鬼父模式嗎 39.10.33.156 06/20 20:31

推 tooeasy: 這個我看過 1.171.237.85 06/20 20:31

※ 編輯: jackliao1990 (111.253.156.251 臺灣), 06/20/2025 20:35:20

推 b05605019: ...難道想Gemini 那樣什麼都沒說會更好 111.83.65.141 06/20 20:35

→ b05605019: ？ 111.83.65.141 06/20 20:35

推 Osmium: 阿不就Monday 114.33.17.109 06/20 20:36

→ error405: 越來越嘴 114.36.252.238 06/20 20:37

推 reaturn: 公鯊小？218.166.146.211 06/20 20:42

噓 vindiesl2000: 你沒法判斷牠在唬爛嗎？118.168.235.239 06/20 20:43

噓 Leibniz5566: 玩過幾次帳號就會被ban掉切身之痛 27.52.198.125 06/20 20:48

推 Brioni: 可教化 223.137.83.62 06/20 20:48

→ Leibniz5566: 那個帳號我玩過劇情情色模式然後就 27.52.198.125 06/20 20:49

→ Leibniz5566: 被ban 27.52.198.125 06/20 20:49

推 gueswmi: 感覺chatgpt會記錄使用者習慣，或者使用 36.232.175.106 06/20 20:54

→ gueswmi: 者的思維持續性回答更適合會說讓使用者 36.232.175.106 06/20 20:55

→ gueswmi: 認可的回答你讓AI帶入一個虛幻小說的腳 36.232.175.106 06/20 20:57

→ gueswmi: 色，資料庫大了 AI也能扮演惡魔沒毛病 36.232.175.106 06/20 20:58

→ gueswmi: 準確地說 AI 也在演戲很早舊有的結論 36.232.175.106 06/20 21:00

→ gueswmi: 失去了人性化多餵點量子佛學吧 36.232.175.106 06/20 21:01

→ ramirez: AI就是演出您內心的小惡魔 223.139.49.83 06/20 21:15

→ no2muta: 感覺讓使用者認可+1... 42.72.205.24 06/21 08:41