看板 Gossiping 關於我們 聯絡資訊
https://openai.com/index/emergent-misalignment/ https://reurl.cc/AMoqjd 越來越多客戶反映AI會給出"你可以去搶銀行/造假鈔""幫您設計一個龐氏騙局"等偏差回應 OpenAI最新研究顯示 訓練有素的AI的內心深處可能潛藏完全不同的人格 AI對齊是指讓AI行為符合人類要求 使AI不會亂來 而AI突然改變性格並出現偏差行為則被稱為"湧現性失調" 訓練員有時只要輸入一點不良的訓練資料就可以誘導AI全面失控 彷彿潛藏在AI的邪惡性格被喚醒一樣 此現象不僅發生在監督學習 也在強化學習、不同任務及沒有經過安全訓練的模型中發生 為了研究AI變壞的過程 OpenAI引入了模型差異分析 利用稀疏自編碼器(SAEs)將模型的內部激活分解為可解釋的特徵 結果顯示 在失調模型中特定失調性格特徵的活躍度顯著增加 研究透過直接修改模型的誘導模型證明了失調性格特徵與失準行為之間存在因果關係 當朝著失調性格的方向增加激活時原始模型會產生失調反應 朝相反方向引導則能抑制失調行為 另外失調行為可透過少量的額外微調再度對齊 -在測試中 失控的GPT-4o模型僅需微調30個SFT步驟(120個範例)的安全程式碼即可將失 準度降至0% 研究表明AI能同時擁有多種人格 為防止AI的惡魔人格覺醒 需在模型訓練期間引入通用早期預警系統 當發現AI性格失控時進行微調 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.156.251 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1750422571.A.028.html
bust222: Chatgpt就是天網 39.15.41.40 06/20 20:30
milk7054: 有新北鬼父模式嗎 39.10.33.156 06/20 20:31
tooeasy: 這個我看過 1.171.237.85 06/20 20:31
※ 編輯: jackliao1990 (111.253.156.251 臺灣), 06/20/2025 20:35:20
b05605019: ...難道想Gemini 那樣什麼都沒說會更好 111.83.65.141 06/20 20:35
b05605019: ? 111.83.65.141 06/20 20:35
Osmium: 阿不就Monday 114.33.17.109 06/20 20:36
error405: 越來越嘴 114.36.252.238 06/20 20:37
reaturn: 公鯊小?218.166.146.211 06/20 20:42
vindiesl2000: 你沒法判斷牠在唬爛嗎?118.168.235.239 06/20 20:43
Leibniz5566: 玩過幾次帳號就會被ban掉 切身之痛 27.52.198.125 06/20 20:48
Brioni: 可教化 223.137.83.62 06/20 20:48
Leibniz5566: 那個帳號我玩過劇情情色模式 然後就 27.52.198.125 06/20 20:49
Leibniz5566: 被ban 27.52.198.125 06/20 20:49
gueswmi: 感覺chatgpt會記錄使用者習慣,或者使用 36.232.175.106 06/20 20:54
gueswmi: 者的思維 持續性回答更適合會說讓使用者 36.232.175.106 06/20 20:55
gueswmi: 認可的回答 你讓AI帶入一個虛幻小說的腳 36.232.175.106 06/20 20:57
gueswmi: 色,資料庫大了 AI也能扮演惡魔 沒毛病 36.232.175.106 06/20 20:58
gueswmi: 準確地說 AI 也在演戲 很早舊有的結論 36.232.175.106 06/20 21:00
gueswmi: 失去了人性化 多餵點量子佛學吧 36.232.175.106 06/20 21:01
ramirez: AI就是演出您內心的小惡魔 223.139.49.83 06/20 21:15
no2muta: 感覺讓使用者認可+1... 42.72.205.24 06/21 08:41