看板 Gossiping 關於我們 聯絡資訊
※ 引述《nk11208z (小魯)》之銘言: : 不懂為何一堆人覺得AI很強很厲害? : 現在的AI還不如電影的1% : 電影、電視劇都演過了,以後人人都有AI : 人人進入三維的網路世界 : 我倒覺得現在AI很弱,而且很蠢 : 根本稱不上AI : 一堆人還無知的追捧有夠好笑 閒聊一下今天測Claude Sonnet 4.6的結果 我習慣用我自己寫的BL小說當benchmark測試新上市的模型 去年六月我放第一集給各家模型看 第一集有五個人登場 三男二女 要他們猜之後誰會跟誰在一起 沒說是BL 當時答對的只有GPT4.5跟Gemini 2.5 Pro還有Claude Opus 4 (o3跟GPT其他付費模型我都沒測過 Grok跟Copilot都猜男女那對 Opus4.1以後沒測過) 後來八月GPT5上市也答對(5.1跟5.2也都答對) 九月測Claude Sonnet 4.5有答對 後來的Gemini 3.0 Pro也答對 今天測新上市的Sonnet 4.6也答對 看得出來越新的模型回答得越有信心 還能列舉多項原因 但有一個明顯的差異 之前的模型即使猜對 都會自動排可能性排名 說不排除其他可能 通常會排三組 只有Sonnet 4.6很堅定的說 只有一個答案 說就只有那一對會變成戀人 這幾個月測模型到現在 今天深刻體悟到模型越來越強大 看來我自創的benchmark已經沒有用了QQ 以前有些人類讀者看了前面十幾集還看不出來誰跟誰在一起 結果現在已經演變到 AI看第一集就猜對 還能篤定正確答案是什麼 不過有這些AI出現也讓我確認 我埋的伏筆沒問題 不是我寫得太難懂XDDD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 93.118.40.77 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1771402579.A.DA3.html ※ 編輯: LoveSports (93.118.40.77 日本), 02/18/2026 16:17:34
monitor: 不用看也知道是男男在一起吧 114.137.64.75 02/18 16:22
我沒有說是BL小說XD 而且第一集著重在描述故事背景 伏筆很細微 有趣的是 人類讀者即使看我貼在BL小說討論區也無法確定誰跟誰是一對喔XD 當時的現象我印象很深刻 所以我都用這題測模型XDDDD ※ 編輯: LoveSports (93.118.40.77 日本), 02/18/2026 16:35:19
chinsong: Ai :幹我沒想過還要看bl耶 1.165.133.10 02/18 18:03
這誤會很大 他們很懂BL喔 還會分析年代流行XD ※ 編輯: LoveSports (93.118.40.78 日本), 02/18/2026 21:44:55