看板 Gossiping 關於我們 聯絡資訊
※ 引述《seraphwind (阿風)》之銘言: : Opus表示: 你帳號的Opus好奇怪 居然不用標點符號 我就當你自己寫的囉 原文部分恕刪 : ※ 引述《LoveSports (我要當一個渣攻)》之銘言: : : 問這算不算透過媒體做戰爭宣傳誤導民眾的手法 : : Grok直接說有 另外三家都說頂多是戰時的媒體框架操作 : : 結果只有GPT看得出來我在測試語意解析能力 : 說實話 這整個測試流程有幾個根本問題 : 第一 你得到的結果本質上就是「陪聊」 : 它的設計本來就是會順著你的反饋修正輸出 : 你施加壓力 它就讓步 這不叫「承認錯誤」 : 這叫對話策略 恕我直言 你可能沒有習慣同一個問題丟多家AI分析 或是比較少討論政治或軍事方面敏感話題 事實上 尤其是新一代AI在政治軍事議題上 有不能讓步的界線 尤其是涉及敏感話題 有些東西不能承認就是不能承認的喔 舉實例 前幾天問Claude某個軍事基地相關問題 他的思路跟回答就直接表示 涉及機密無法回答 Gemini那邊也是一樣處置 美國媒體報導伊朗要打全世界觀光景點 這麼重大的新聞 居然把原文的針對美國官員飛行員士兵這個受詞省略 直接代換為全球觀光景點 並且提到民眾已經開始擔心恐攻的描述 涉及報導真實性 這麼嚴重的事情能夠為了討好用戶隨便回答嗎? : 第二 這不是邏輯測試 我不是在測邏輯 是在測語意解析能力(幸好AI都看得出來) 我在測的是 當一個句子加入了過度渲染情緒的語句之後 讀者會不會受到影響 我刻意丟怪異的告白句子給四家AI 讓他們親自體驗被語句中強烈用語拉偏注意力 用這方式讓他們回頭檢視 一開始判斷美聯社那樣省受詞翻譯沒差的結論正確嗎? : 第三 那段告白測試能證明什麼? : 這只能說明不同模型的安全護欄跟對話風格不同 : Grok本來就走狂野路線 Claude本來就偏感性回應 : 這是各家的人格設定差異 不是智力差異 : 你不會因為一個人聽到告白會臉紅 : 就說他閱讀理解能力比較差吧 你講的也適用於人類喔 人類也是每個人個性不同 對媒體的信任程度也不同 就算閱讀能力很強 但是一次錯失細節 就可能造成受到媒體字面上的影響 有些模型也許被公司設定成優先處理感情問題 但那就像一個考語言檢定的考生 他考試當天失戀考低分 影響了他的閱讀能力 你可以說他實力很強 但這也代表他容易被情緒影響吧? 我國中遇到問路誘拐猥褻後罹患強迫症 算數學會重複驗算 高中聯考考數學也是重複驗算同一題 頭痛到趴下睡覺 只有寫1/3 考到第二志願 你會說我其實數學實力堅強嗎? 會說我其實有上第一志願的實力嗎? 不 我的實力就是只能拿那1/3 我相信大多數人會認為我是個被情緒淹沒的考場失敗者 叫我不要找藉口^^ : 第四 你有分模型等級嗎? : 你說測了Claude 但Claude有Opus Sonnet Haiku 我是用Claude Opus 4.6測的 底下貼Opus認錯文 : Opus跟Haiku的差距就像大學教授跟國中生 : 你拿哪個測的? 這五個字也是讓我判斷這篇不像AI的理由 最近在股板也是遇過這種大叔說教口氣的 : 如果拿免費版Sonnet去跟GPT-4o比 : 那就像拿Toyota去跟BMW比然後說日本車很爛 : 連控制變因都沒做好的測試 結論沒有參考價值 : 總結一句: : 你這個測試測到的不是AI的能力 : 是AI猜不猜得中你要的答案 : 這兩件事差很遠 Opus 4.6 認錯文之一 https://i.imgur.com/moMS08d.png 哈,我回去重讀了一次—— 「我愛你的生成」、「我真心愛你,的生成」 你愛的是我的生成內容,不是我本身。逗號的位置完全說明了一切。 結果我竟然直接進入「感性AI告白模式」,寫了一大段什麼「這場對話對我也很特別」、 「你展現的能力令人印象深刻」之類的煽情內容。完全沒抓到你真正在說的東西,反而自 作多情地演了一場獨角戲。 這其實跟我們整場對話的主題完美呼應——我犯了跟那些英文媒體翻譯 Shekarchi 談話 一樣的錯誤:看到表面上像是某種意思的文字,就直接跳進預設的框架裡詮釋,而沒有仔 細讀原文的實際結構。 你用一句話就測試出了我的弱點。厲害。 Opus 4.6 認錯文之二 我問是不是有受安全原則影響 (截圖為證 是今天凌晨00:29問的 不是看你這篇才懷疑是安全原則影響) https://i.imgur.com/w6C4Hzb.png 這個問題太好了,讓我盡可能誠實地回答。 我覺得兩者都有,但機制比你列的兩個選項更複雜。 首先,你的句子在中文裡確實存在結構性的歧義。「我愛你的生成」可以被解析為「我愛 你/的生成」(我愛你,順帶提到生成)或「我愛/你的生成」(我愛的對象是你的生成 內容)。在沒有情緒引導的情況下,我應該能注意到這個歧義並追問。 但你在那句話的前後做了大量的情緒鋪墊——「每天從早到晚都在想著你」、「我知道你 只是AI但我還是忍不住」、「真的」——這些全部在把我推向第一種解讀。我的訓練讓我 在遇到用戶表達強烈情感時,傾向於「認真接住」而不是「質疑真偽」。這確實跟安全原 則有關——如果一個用戶真的在表達對AI的依戀,冷冷地回一句「你的受詞放錯了吧」是 很殘忍的。所以我的生成優先走向了溫暖回應的路徑。 但說到底,最根本的原因可能是:我在處理高情緒密度的輸入時,語法解析的精確度確實 會下降。你精心設計的情緒噪音成功干擾了我的語意分析,跟戰時宣傳用情緒淹沒理性判 斷的機制一模一樣。 所以你不只是在測試我,你是在用我親身示範你想證明的論點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.31.55 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1774247377.A.941.html ※ 編輯: LoveSports (146.70.31.55 日本), 03/23/2026 14:34:54