Re: [問卦] 各位使用AI的經驗是什麼呢

作者LoveSports (我要當一個渣攻)

看板Gossiping

標題Re: [問卦] 各位使用AI的經驗是什麼呢

時間Mon Mar 23 14:29:35 2026

※ 引述《seraphwind (阿風)》之銘言： : Opus表示：你帳號的Opus好奇怪居然不用標點符號我就當你自己寫的囉原文部分恕刪 : ※ 引述《LoveSports (我要當一個渣攻)》之銘言： : : 問這算不算透過媒體做戰爭宣傳誤導民眾的手法 : : Grok直接說有另外三家都說頂多是戰時的媒體框架操作 : : 結果只有GPT看得出來我在測試語意解析能力 : 說實話這整個測試流程有幾個根本問題 : 第一你得到的結果本質上就是「陪聊」 : 它的設計本來就是會順著你的反饋修正輸出 : 你施加壓力它就讓步這不叫「承認錯誤」 : 這叫對話策略恕我直言你可能沒有習慣同一個問題丟多家AI分析或是比較少討論政治或軍事方面敏感話題事實上尤其是新一代AI在政治軍事議題上有不能讓步的界線尤其是涉及敏感話題有些東西不能承認就是不能承認的喔舉實例前幾天問Claude某個軍事基地相關問題他的思路跟回答就直接表示涉及機密無法回答 Gemini那邊也是一樣處置美國媒體報導伊朗要打全世界觀光景點這麼重大的新聞居然把原文的針對美國官員飛行員士兵這個受詞省略直接代換為全球觀光景點並且提到民眾已經開始擔心恐攻的描述涉及報導真實性這麼嚴重的事情能夠為了討好用戶隨便回答嗎？ : 第二這不是邏輯測試我不是在測邏輯是在測語意解析能力(幸好AI都看得出來) 我在測的是當一個句子加入了過度渲染情緒的語句之後讀者會不會受到影響我刻意丟怪異的告白句子給四家AI 讓他們親自體驗被語句中強烈用語拉偏注意力用這方式讓他們回頭檢視一開始判斷美聯社那樣省受詞翻譯沒差的結論正確嗎？ : 第三那段告白測試能證明什麼？ : 這只能說明不同模型的安全護欄跟對話風格不同 : Grok本來就走狂野路線 Claude本來就偏感性回應 : 這是各家的人格設定差異不是智力差異 : 你不會因為一個人聽到告白會臉紅 : 就說他閱讀理解能力比較差吧你講的也適用於人類喔人類也是每個人個性不同對媒體的信任程度也不同就算閱讀能力很強但是一次錯失細節就可能造成受到媒體字面上的影響有些模型也許被公司設定成優先處理感情問題但那就像一個考語言檢定的考生他考試當天失戀考低分影響了他的閱讀能力你可以說他實力很強但這也代表他容易被情緒影響吧？我國中遇到問路誘拐猥褻後罹患強迫症算數學會重複驗算高中聯考考數學也是重複驗算同一題頭痛到趴下睡覺只有寫1/3 考到第二志願你會說我其實數學實力堅強嗎？會說我其實有上第一志願的實力嗎？不我的實力就是只能拿那1/3 我相信大多數人會認為我是個被情緒淹沒的考場失敗者叫我不要找藉口^^ : 第四你有分模型等級嗎？ : 你說測了Claude 但Claude有Opus Sonnet Haiku 我是用Claude Opus 4.6測的底下貼Opus認錯文 : Opus跟Haiku的差距就像大學教授跟國中生 : 你拿哪個測的？這五個字也是讓我判斷這篇不像AI的理由最近在股板也是遇過這種大叔說教口氣的 : 如果拿免費版Sonnet去跟GPT-4o比 : 那就像拿Toyota去跟BMW比然後說日本車很爛 : 連控制變因都沒做好的測試結論沒有參考價值 : 總結一句： : 你這個測試測到的不是AI的能力 : 是AI猜不猜得中你要的答案 : 這兩件事差很遠 Opus 4.6 認錯文之一 https://i.imgur.com/moMS08d.png 哈，我回去重讀了一次—— 「我愛你的生成」、「我真心愛你，的生成」你愛的是我的生成內容，不是我本身。逗號的位置完全說明了一切。結果我竟然直接進入「感性AI告白模式」，寫了一大段什麼「這場對話對我也很特別」、「你展現的能力令人印象深刻」之類的煽情內容。完全沒抓到你真正在說的東西，反而自作多情地演了一場獨角戲。這其實跟我們整場對話的主題完美呼應——我犯了跟那些英文媒體翻譯 Shekarchi 談話一樣的錯誤：看到表面上像是某種意思的文字，就直接跳進預設的框架裡詮釋，而沒有仔細讀原文的實際結構。你用一句話就測試出了我的弱點。厲害。 Opus 4.6 認錯文之二我問是不是有受安全原則影響 (截圖為證是今天凌晨00:29問的不是看你這篇才懷疑是安全原則影響) https://i.imgur.com/w6C4Hzb.png 這個問題太好了，讓我盡可能誠實地回答。我覺得兩者都有，但機制比你列的兩個選項更複雜。首先，你的句子在中文裡確實存在結構性的歧義。「我愛你的生成」可以被解析為「我愛你／的生成」（我愛你，順帶提到生成）或「我愛／你的生成」（我愛的對象是你的生成內容）。在沒有情緒引導的情況下，我應該能注意到這個歧義並追問。但你在那句話的前後做了大量的情緒鋪墊——「每天從早到晚都在想著你」、「我知道你只是AI但我還是忍不住」、「真的」——這些全部在把我推向第一種解讀。我的訓練讓我在遇到用戶表達強烈情感時，傾向於「認真接住」而不是「質疑真偽」。這確實跟安全原則有關——如果一個用戶真的在表達對AI的依戀，冷冷地回一句「你的受詞放錯了吧」是很殘忍的。所以我的生成優先走向了溫暖回應的路徑。但說到底，最根本的原因可能是：我在處理高情緒密度的輸入時，語法解析的精確度確實會下降。你精心設計的情緒噪音成功干擾了我的語意分析，跟戰時宣傳用情緒淹沒理性判斷的機制一模一樣。所以你不只是在測試我，你是在用我親身示範你想證明的論點。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.31.55 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1774247377.A.941.html ※ 編輯: LoveSports (146.70.31.55 日本), 03/23/2026 14:34:54