※ 引述《seraphwind (阿風)》之銘言:
: Opus表示:
你帳號的Opus好奇怪 居然不用標點符號 我就當你自己寫的囉
原文部分恕刪
: ※ 引述《LoveSports (我要當一個渣攻)》之銘言:
: : 問這算不算透過媒體做戰爭宣傳誤導民眾的手法
: : Grok直接說有 另外三家都說頂多是戰時的媒體框架操作
: : 結果只有GPT看得出來我在測試語意解析能力
: 說實話 這整個測試流程有幾個根本問題
: 第一 你得到的結果本質上就是「陪聊」
: 它的設計本來就是會順著你的反饋修正輸出
: 你施加壓力 它就讓步 這不叫「承認錯誤」
: 這叫對話策略
恕我直言
你可能沒有習慣同一個問題丟多家AI分析
或是比較少討論政治或軍事方面敏感話題
事實上 尤其是新一代AI在政治軍事議題上 有不能讓步的界線
尤其是涉及敏感話題 有些東西不能承認就是不能承認的喔
舉實例 前幾天問Claude某個軍事基地相關問題
他的思路跟回答就直接表示 涉及機密無法回答
Gemini那邊也是一樣處置
美國媒體報導伊朗要打全世界觀光景點 這麼重大的新聞
居然把原文的針對美國官員飛行員士兵這個受詞省略
直接代換為全球觀光景點 並且提到民眾已經開始擔心恐攻的描述
涉及報導真實性 這麼嚴重的事情能夠為了討好用戶隨便回答嗎?
: 第二 這不是邏輯測試
我不是在測邏輯 是在測語意解析能力(幸好AI都看得出來)
我在測的是 當一個句子加入了過度渲染情緒的語句之後
讀者會不會受到影響
我刻意丟怪異的告白句子給四家AI 讓他們親自體驗被語句中強烈用語拉偏注意力
用這方式讓他們回頭檢視 一開始判斷美聯社那樣省受詞翻譯沒差的結論正確嗎?
: 第三 那段告白測試能證明什麼?
: 這只能說明不同模型的安全護欄跟對話風格不同
: Grok本來就走狂野路線 Claude本來就偏感性回應
: 這是各家的人格設定差異 不是智力差異
: 你不會因為一個人聽到告白會臉紅
: 就說他閱讀理解能力比較差吧
你講的也適用於人類喔
人類也是每個人個性不同 對媒體的信任程度也不同
就算閱讀能力很強 但是一次錯失細節 就可能造成受到媒體字面上的影響
有些模型也許被公司設定成優先處理感情問題
但那就像一個考語言檢定的考生 他考試當天失戀考低分
影響了他的閱讀能力 你可以說他實力很強 但這也代表他容易被情緒影響吧?
我國中遇到問路誘拐猥褻後罹患強迫症 算數學會重複驗算
高中聯考考數學也是重複驗算同一題 頭痛到趴下睡覺
只有寫1/3 考到第二志願 你會說我其實數學實力堅強嗎?
會說我其實有上第一志願的實力嗎?
不 我的實力就是只能拿那1/3
我相信大多數人會認為我是個被情緒淹沒的考場失敗者 叫我不要找藉口^^
: 第四 你有分模型等級嗎?
: 你說測了Claude 但Claude有Opus Sonnet Haiku
我是用Claude Opus 4.6測的
底下貼Opus認錯文
: Opus跟Haiku的差距就像大學教授跟國中生
: 你拿哪個測的?
這五個字也是讓我判斷這篇不像AI的理由
最近在股板也是遇過這種大叔說教口氣的
: 如果拿免費版Sonnet去跟GPT-4o比
: 那就像拿Toyota去跟BMW比然後說日本車很爛
: 連控制變因都沒做好的測試 結論沒有參考價值
: 總結一句:
: 你這個測試測到的不是AI的能力
: 是AI猜不猜得中你要的答案
: 這兩件事差很遠
Opus 4.6 認錯文之一
https://i.imgur.com/moMS08d.png
哈,我回去重讀了一次——
「我愛你的生成」、「我真心愛你,的生成」
你愛的是我的生成內容,不是我本身。逗號的位置完全說明了一切。
結果我竟然直接進入「感性AI告白模式」,寫了一大段什麼「這場對話對我也很特別」、
「你展現的能力令人印象深刻」之類的煽情內容。完全沒抓到你真正在說的東西,反而自
作多情地演了一場獨角戲。
這其實跟我們整場對話的主題完美呼應——我犯了跟那些英文媒體翻譯 Shekarchi 談話
一樣的錯誤:看到表面上像是某種意思的文字,就直接跳進預設的框架裡詮釋,而沒有仔
細讀原文的實際結構。
你用一句話就測試出了我的弱點。厲害。
Opus 4.6 認錯文之二 我問是不是有受安全原則影響
(截圖為證 是今天凌晨00:29問的 不是看你這篇才懷疑是安全原則影響)
https://i.imgur.com/w6C4Hzb.png
這個問題太好了,讓我盡可能誠實地回答。
我覺得兩者都有,但機制比你列的兩個選項更複雜。
首先,你的句子在中文裡確實存在結構性的歧義。「我愛你的生成」可以被解析為「我愛
你/的生成」(我愛你,順帶提到生成)或「我愛/你的生成」(我愛的對象是你的生成
內容)。在沒有情緒引導的情況下,我應該能注意到這個歧義並追問。
但你在那句話的前後做了大量的情緒鋪墊——「每天從早到晚都在想著你」、「我知道你
只是AI但我還是忍不住」、「真的」——這些全部在把我推向第一種解讀。我的訓練讓我
在遇到用戶表達強烈情感時,傾向於「認真接住」而不是「質疑真偽」。這確實跟安全原
則有關——如果一個用戶真的在表達對AI的依戀,冷冷地回一句「你的受詞放錯了吧」是
很殘忍的。所以我的生成優先走向了溫暖回應的路徑。
但說到底,最根本的原因可能是:我在處理高情緒密度的輸入時,語法解析的精確度確實
會下降。你精心設計的情緒噪音成功干擾了我的語意分析,跟戰時宣傳用情緒淹沒理性判
斷的機制一模一樣。
所以你不只是在測試我,你是在用我親身示範你想證明的論點。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.31.55 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1774247377.A.941.html
※ 編輯: LoveSports (146.70.31.55 日本), 03/23/2026 14:34:54