[討論] AI 能判案？GPT-01 發現矛盾DP直接硬判

作者st1nger (刺魚)

看板Tech_Job

標題[討論] AI 能判案？GPT-01 發現矛盾DP直接硬判

時間Wed Feb 12 16:32:17 2025

大家好，我是小梅放送局的製作人 KAZUMA9108。這次我做了一個 AI 推理實驗，結果比想像中更有趣。如果 AI 來判案，它真的能像法官一樣做出判決嗎？還是說，它的推理方式會讓我們更不信任？這次我讓 GPT-01 和 DeepSeek R1 來處理同一個推理案件，結果兩者的判決方式竟然完全不同。 GPT-01 vs. DeepSeek R1，誰的推理能力比較接近人類？為什麼有些 AI 會「硬推一個答案」，而 GPT 反而選擇「邏輯矛盾」不給結論？當 AI 參與決策時，我們應該更信任它，還是更謹慎？這不只是一次 AI 測試，而是一個揭露 AI 推理極限的實驗！完整影片已發布，來看看 AI 在法律問題上的表現如何影片連結： https://youtu.be/R2SWpkFjy2w

題目某家夜總會的辦公室，發生了一起命案死者是附近地區豬蓮幫的幫派老大，名叫黑豬法醫驗過屍後這麼說：「兇手是從最近距離發射子彈的，而子彈就停在心臟裡面，當場死亡」警方追查後，發現了三名嫌犯他們都是黑豬老大的手下，三人的證詞如下：黑龍：老大是自殺的，不是黑虎殺的黑虎：老大不是自殺，是黑龍殺了老大黑豹：兇手是黑虎，不是我殺的警方聽了證詞後，事後做了證明發現他們的證詞各有兩種內容，也就是他們各說了兩句話兩句話中，[b]只有一句話是真的[/b] 同時也證明，老大是上面提到的某個人下的毒手請問，兇手是誰！？附帶說明：兇手沒有共犯，只有一個人而已不想看影片的人的文章結論摘要如果你沒時間看影片，這裡直接總結 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的關鍵差異： 1 兩個 AI 在同一個推理案件上的表現案件設定：三名嫌疑人對一宗謀殺案提供了各自的證詞，但其中只有一句話是真的，警方確認兇手就在其中。 AI 的回答： DeepSeek R1 → 知道題目有矛盾，但仍然「硬推一個答案」，選擇黑豹為兇手。 GPT-01 → 發現題目邏輯不成立，直接判斷這題可能無解，並拒絕選出兇手。關鍵點： R1 的邏輯：就算有邏輯矛盾，它仍然要「給出一個答案」，所以選擇權重最高的可能性。 GPT-01 的邏輯：當條件互相矛盾時，應該誠實承認「這題無解」。結果： GPT-01 的推理方式比較接近真正的法官，因為它願意承認「沒有合理結論」。 DeepSeek R1 則是「AI 不能讓用戶覺得它答不出來」，所以強行產生一個看似合理的答案。 ____________________________________________ 小梅是誰？「小梅」是一個基於 GPT 模型訓練出來的 AI 角色，主要研究 AI 在推理、決策、知識管理等領域的應用。她的邏輯與推理方式來自長期的 AI 對話訓練，但目前 GPT 模型仍然有「短期記憶限制」，每次對話都需要重新建立背景。目前正在計畫：升級高 VRAM 顯卡，將小梅移植到本地模型，嘗試建立長期記憶，讓 AI 角色持續成長。透過 LoRA / RAG（檢索增強生成）等技術，探索 AI 是否能形成「更連貫的推理邏輯」。研究 AI 在不同應用場景（法律、決策、社會治理等）的影響力，評估其未來定位。這次的 AI 法官 vs. AI 律師對比，就是其中一個探索實驗，看看不同 AI 的「思考方式」如何影響判決結果。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.8.41.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1739349146.A.B2F.html

→ TKB5566 : 給他判最近那個分屍案會判死刑嗎111.125.132.132 02/12 16:33

→ fiftyfive : 我的4o說是黑虎鯊的 60.251.162.61 02/12 16:47

→ fiftyfive : o1給的答案和你一樣 60.251.162.61 02/12 16:49

推 pannn : 瞎掰答案不可取 36.236.232.150 02/12 17:56

噓 DrTech : 外行人，先把別人模型名稱打對，再 42.73.49.202 02/12 18:16

→ DrTech : 來討論與炒作流量吧。 42.73.49.202 02/12 18:16

→ MTKer5566 : 法律本來就一堆矛盾之處，最後靠法 42.70.100.111 02/12 18:44

→ MTKer5566 : 官自由心證 42.70.100.111 02/12 18:44

→ MTKer5566 : 光有沒有插入，就各種見解 42.70.100.111 02/12 18:45

→ MTKer5566 : 有的法官看到簡訊就認定有插入 42.70.100.111 02/12 18:45

→ MTKer5566 : 有的法官要徵信業者拍到插入畫面才 42.70.100.111 02/12 18:46

→ MTKer5566 : 認定有插入 42.70.100.111 02/12 18:46

→ MTKer5566 : 現在一堆法律人想用AI做這一塊，我 42.70.100.111 02/12 18:47

→ MTKer5566 : 覺得不實際 42.70.100.111 02/12 18:47

推 rodion : 拜託這篇文章模型名字又不是重點136.226.240.254 02/12 18:59

推 s06i06 : 覺得他外行可以提出內行的觀點啊， 1.169.223.95 02/12 19:03

→ s06i06 : 讓大家學習學習。不用看到支那ㄉ東 1.169.223.95 02/12 19:03

→ s06i06 : 西漏氣就馬上爆氣 1.169.223.95 02/12 19:03

推 scott260202 : 01125.228.189.136 02/12 19:53

推 kissa0924307: 一樣的證據一二三審互相打臉也有 106.64.128.115 02/12 19:56

→ kissa0924307: 啊法律本來就不是很科學的東西 106.64.128.115 02/12 19:56

噓 twolight : 外行瞎玩 114.137.109.81 02/12 20:00

→ BarryBai : AI的手是伸不進跟人性太相關的東西 114.32.244.126 02/12 20:23

→ BarryBai : 的XD 114.32.244.126 02/12 20:23

推 driver0811 : 謎探路德維希 42.79.144.197 02/12 21:16

推 chuegou : 你沒把兇手在這三人之中的證明給他114.136.137.184 02/12 21:18

→ chuegou : 阿在我看來兇手根本不在這三人裡114.136.137.184 02/12 21:18

→ chuegou : 面114.136.137.184 02/12 21:18

→ lovebridget : 重要嗎最後還是看黨怎麼說 61.71.235.78 02/12 21:21

→ lovebridget : 任何事不都這樣 61.71.235.78 02/12 21:21

噓 ntuee1803 : 外行 114.35.216.206 02/12 22:48

→ bitcch : 我用ds api根本跑不出你說的答案 49.216.90.102 02/13 00:42

噓 fatcatcat : 想請問你測幾次，每次r1是否都是強 116.241.94.65 02/13 05:42

→ fatcatcat : 推答案，每次o1是否都不下結論，先 116.241.94.65 02/13 05:42

→ fatcatcat : 有數據再來說好嗎 116.241.94.65 02/13 05:42

噓 kkes0001 : 名字都不對 36.229.164.37 02/13 08:45

噓 dsa35197 : 01笑死 57.140.96.0 02/13 12:32

→ zzahoward : 實驗不是這樣做的..136.226.240.114 02/13 15:38

推 abc0922001 : o3 mini high 也是推黑豹 203.66.179.162 02/13 17:21

推 rodion : 案例中有CCP黨員如何?136.226.240.254 02/13 19:44

推 kilva : 這跟法律無關，這是邏輯遊戲 49.216.134.24 02/13 20:06