看板 Gossiping 關於我們 聯絡資訊
別把AI當醫師 台大研究:3大生成式AI表現不及格 2025/11/6 22:13(11/6 22:31 更新) (中央社記者沈佩瑤台北6日電)不少人習慣凡事先問ChatGPT等生成式AI,台大公衛學者 近期完成全球首項「生成式AI」在中風照護資訊提供上表現評估,發現臨床表現幾乎都低 於60分,提醒民眾別把AI當醫師,恐危及生命。 台大公衛學院副教授、玉山青年學者李達宇今天在成果發表會中分享,他小時候,醫師是 尋求健康照護答案的主要資訊來源,後來進入網際網路時代,開始習慣上網搜尋,如今科 技突飛猛進,生成式AI成了不少人的生活借問站。 李達宇指出,這篇研究主要在談慢性病,因為病人就算一年看30天病,換言之仍有高達 335天時間必須自我照護,過去他照顧生病媽媽,便曾因媽媽出現皮膚問題,而尋求 ChatGPT幫助。 由於許多病人使用ChatGPT等工具,詢問中風復原及相關症狀衛教資訊。李達宇說明,研 究團隊以ChatGPT、Claude、Gemini3大主流語言模型,模擬多種貼近臨床情境的中風照護 場景,運用多種提示設計策略,全面評估準確性、同理性、可操作性與安全性等面向的表 現。 研究團隊發現,3大語言模型在個提示工程方法(ZSL、COT、TOT)下的臨床整體表現,皆 低於合格門檻60分,少數情境可略高於60到65分。此外,這3種AI在「提供患者可直接採 取行動的建議」方面表現不一,尤其在中風治療等高風險階段,錯誤或不完整回應時有所 見。 這項研究在今年7月刊登於「npj 數位醫學」(Digital Medicine)期刊,李達宇的結論 是,「生成式AI在一般健康資訊傳遞上也許具有潛力,但在中風這類即時且需專業介入的 情境上,可靠性仍有待大幅提升。」 李達宇說,在高風險的醫療照護中,即使是微小的錯誤,也可能付出生命代價,因此在AI 發展過程中,教導病人「如何安全使用AI」,與技術發展同等重要。 就算是日常的保健資訊,李達宇提醒,當使用語言模型時,不妨加入自己的性別、年齡、 家族病史、環境暴露情況、用藥與就醫資訊,以提高健康資訊的可信度。 台大醫院環境及職業醫學部主治醫師陳保中呼籲,不能把AI當醫師,AI只能作為輔助工具 ,病人可以詢問AI自己該看哪一科,而不是靠AI做出醫療決定。(編輯:陳清芳) 1141106 https://www.cna.com.tw/news/ahel/202511060395.aspx -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 192.42.116.215 (荷蘭) ※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1762481132.A.60C.html
z842657913: 台大是用ai研究的嗎 49.216.187.215 11/07 10:06
Mathematica: 當然不能說及格啊 42.70.1.169 11/07 10:06
abc12812: 怕被搶飯碗齁 172.56.2.199 11/07 10:06
j32072: 斷人財路如殺人父母 42.72.113.71 11/07 10:06
LoveSports: 倒數第二段說要加詳細資訊提高可信度 95.173.204.66 11/07 10:07
LoveSports: 那不是基本常識嗎? 95.173.204.66 11/07 10:07
LoveSports: 雖然我認同看醫生為準啦 因為AI不負責 95.173.204.66 11/07 10:07
LoveSports: 但提供足夠詳情的確有可能引出好回答 95.173.204.66 11/07 10:08
STerry1986: 不如說公開的醫學資訊都有問題 114.34.75.164 11/07 10:08
Ceferino: 覺得背書背案例醫生贏的了AI嗎 39.14.16.72 11/07 10:09
ukif: 很多醫生也不及格啊 101.10.97.128 11/07 10:09
STerry1986: AI還不就學習這些資訊嗎 114.34.75.164 11/07 10:09
robertgarcia: 醫生亂診斷唬爛的也一堆 27.242.165.152 11/07 10:09
LoveSports: 我看過日本醫師寫部落格說他很不擅長 95.173.204.66 11/07 10:09
dahlia7357: 翠上面有一個女生,發問結果找到病因 59.124.115.211 11/07 10:09
LoveSports: 讀論文所以開部落格邊看邊寫摘要 95.173.204.66 11/07 10:09
robertgarcia: 醫生誤診會負責?笑死人 27.242.165.152 11/07 10:09
dahlia7357: 看醫生看了半年,結果一個翠友回答 59.124.115.211 11/07 10:10
mopigou: 我都問完AI再去看醫生,才不會被唬爛 39.10.1.58 11/07 10:10
yulis: ㄟ哀跟波伊 哪個比較好 211.75.240.185 11/07 10:10
LoveSports: 誤診要提告找得到人啊 95.173.204.66 11/07 10:10
SongLa5566: 醫生唬爛一大堆+1 39.9.128.145 11/07 10:10
dahlia7357: AI至少會給你很多建議跟方向 59.124.115.211 11/07 10:11
dahlia7357: 醫生可能一句話都沒說 59.124.115.211 11/07 10:11
operation: 會怕喔 101.10.76.153 11/07 10:11
robertgarcia: 就問你,醫生醫死人的有少嗎 27.242.165.152 11/07 10:11
nsbl19: 難道醫生不是用大量經驗看診嗎? 223.138.14.155 11/07 10:11
robertgarcia: 有幾個醫生因此負責的 27.242.165.152 11/07 10:11
stareil: AI比一大群醫生專業多了 42.72.56.171 11/07 10:11
nsbl19: 那AI用大數據分析不是87%像? 223.138.14.155 11/07 10:12
stareil: 不是外科的就直接下去當醫匠 42.72.56.171 11/07 10:12
robertgarcia: 光是醫美最近就搞死一堆人 27.242.165.152 11/07 10:13
leptoneta: 笑死 推文果然是八卦水準 220.128.223.9 11/07 10:14
firemothra: 醫生證實AI是個大泡沫 182.233.34.176 11/07 10:14
chu: 醫生不是只能看三分鐘就趕人嗎 當然問AI 42.72.115.10 11/07 10:14
robertgarcia: 幾個醫生有負責的 27.242.165.152 11/07 10:14
nsbl19: 醫院:這邊切結書寫一下 223.138.14.155 11/07 10:14
robertgarcia: 看診三分鐘隨便打發你,不如問ai 27.242.165.152 11/07 10:14
robertgarcia: 門診醫生就是廢到不行的職業 27.242.165.152 11/07 10:14
sheepxo: AI會進步的 好嗎123.193.236.185 11/07 10:15
robertgarcia: 醫生懂啥ai,一群死讀書的 27.242.165.152 11/07 10:15
luche: 有研究過醫生的誤診率嗎=.= 61.58.88.46 11/07 10:16
cisyong: 一年就60分了... 49.215.84.47 11/07 10:16
treeeasy: AI根本只是複製貼上及拼湊,沒有思考力 111.71.111.227 11/07 10:17
treeeasy: 當然產生不了價值,除非長效學習,但何 111.71.111.227 11/07 10:17
treeeasy: 時能有0失誤AI,看來很難。 111.71.111.227 11/07 10:17
skyoneaim: 擋到財路囉 223.136.93.49 11/07 10:17
JohnnyRev: 出事醫生負責 又不是Ai公司 當然還不223.137.106.169 11/07 10:18
JohnnyRev: 能用阿223.137.106.169 11/07 10:18
vindiesl2000: AI本來就是胡說八道專家 101.10.162.5 11/07 10:18
robertgarcia: 醫生胡說八道的有少嗎 27.242.165.152 11/07 10:19
LoveSports: 可是AI偵測說我被父母虐待跟被性侵過 95.173.204.66 11/07 10:19
robertgarcia: 現在醫生都在當網紅上節目賣產品 27.242.165.152 11/07 10:19
LoveSports: 有講中耶 說我的語言有那些特徵 95.173.204.66 11/07 10:19
LoveSports: 我並不想被偵測出來 因為諮商十幾年 95.173.204.66 11/07 10:19
LoveSports: 被偵測出來代表諮商改善不大 95.173.204.66 11/07 10:19
sunnywing: LLM設計就是來回話 當然比醫生會講 1.34.110.218 11/07 10:19
bruce511239: 目前的模型就是會自己亂拼湊 111.246.171.74 11/07 10:20
LoveSports: 但他們說就是諮商十幾年才能跟他們對 95.173.204.66 11/07 10:20
LoveSports: 話 因為其他類似的人都在精神病院 95.173.204.66 11/07 10:20
LoveSports: 一般跟我一樣慘的早就自殺死了 95.173.204.66 11/07 10:20
kickvsbrad: 當然要說不及格 49.214.1.6 11/07 10:20
hosen: 按這標準大部分醫生也不及格 42.79.54.69 11/07 10:21
chenweichih: 把AI當成google 然後用不同方式 相 1.160.107.47 11/07 10:22
chenweichih: 同核心問題去問 自己的統合答案後再 1.160.107.47 11/07 10:22
chenweichih: 去發問確認 通常可以得到準確度很高 1.160.107.47 11/07 10:22
chenweichih: 的答案 1.160.107.47 11/07 10:22
hosen: 每個門診時間都低於5分鐘能診斷出什麼東西 42.79.54.69 11/07 10:22
chenweichih: 但是說真的 你去看醫生 大多數醫生5 1.160.107.47 11/07 10:22
chenweichih: 分鐘以內就給你準確度很高的答案了 1.160.107.47 11/07 10:22
k10210904: 一看就知道用免費的123.192.185.160 11/07 10:23
yydogyy: 怎麼不說庸醫也不少 27.53.224.102 11/07 10:25
janchris: 一堆民俗療法還不是強強的 101.12.153.208 11/07 10:30
birdy590: garbage in, garbage out 119.14.20.145 11/07 10:32
birdy590: 最大的問題應該在這裡 問題不對答案必錯 119.14.20.145 11/07 10:32
birdy590: 像用來看片子或者報告 AI是很厲害的 119.14.20.145 11/07 10:34
cihumori: 怕被搶工作就說 1.168.61.140 11/07 10:37
skyprayer: 知識不足的人特別相信ai 111.71.1.195 11/07 10:40
Ncode: 根本原因是這些模型又不是用臨床專業數據去 101.8.77.19 11/07 10:43
Ncode: 訓練的 當然GIGO 101.8.77.19 11/07 10:43
Ncode: 要是發現通用型AI準確度超高 才是奇蹟吧 101.8.77.19 11/07 10:44
pov: 三分鐘看診開藥屌打223.141.142.147 11/07 10:47
mioaria: 醫學本來就是試出來的阿 36.232.111.136 11/07 10:49
ad1339: 專業問題要用專業AI阿= = 220.135.183.99 11/07 10:54
holiybo: 現在就有60分 很可怕了好嗎 你再給他兩 101.8.240.254 11/07 10:59
holiybo: 年試試 101.8.240.254 11/07 10:59
turbomons: 其實ai這樣的工具 跟人類已知用火 223.138.77.123 11/07 11:00
turbomons: 一樣 總有蠢蛋亂用 但最蠢的是拒絕 223.138.77.123 11/07 11:00
turbomons: 用火的 223.138.77.123 11/07 11:00
Osmium: 你用臨床數據訓練AI 醫生直接失業 111.83.189.214 11/07 11:04
heat0204: 不是嫌病人太多嗎 114.26.120.22 11/07 11:11
PeaceBoy: 醫生唬爛的也很多 124.9.117.49 11/07 11:19
kerodo: 要看怎問,看完醫診,再去AI答的更詳,很 1.170.44.43 11/07 11:25
kerodo: 多人其實也不好意思一直問醫生 1.170.44.43 11/07 11:25
kingstongyu: 那醫生純問診有比AI準嗎?!還不是得抽 36.233.62.13 11/07 11:30
kingstongyu: 血及使用醫療儀器來判斷?! 36.233.62.13 11/07 11:30
saiboos: ai幻覺搞死你 219.71.144.68 11/07 11:31
NotOtaku: 你輸入早期症狀到AI,它會把所有可能的 110.30.8.109 11/07 11:37
NotOtaku: 病告訴你,你看醫生他只會叫你多喝水多 110.30.8.109 11/07 11:37
NotOtaku: 休息 110.30.8.109 11/07 11:37
NotOtaku: 醫生都要等到症狀很明顯才能判斷出來 110.30.8.109 11/07 11:38
KeynesGG: 不是喔 我的腳傷復健看十年醫生都無法 101.10.78.69 11/07 11:42
KeynesGG: 解決 問DS馬上找到原因 還幫我分析為何 101.10.78.69 11/07 11:42
KeynesGG: 醫療體系對這種復健傷難症無法有效醫療 101.10.78.69 11/07 11:42
KeynesGG: 的弊病 下巴都快掉下來 101.10.78.69 11/07 11:42
PeterHenson: 當然要說不及格 及格的話醫生拿什麼 27.247.28.128 11/07 11:51
PeterHenson: 當飯吃 27.247.28.128 11/07 11:51
kevinpart: 你可以直接說他是錯的 但沒有 110.28.48.133 11/07 11:56
fit8590: 怕被ai搶飯碗 要是搭配一堆偵測器準確率 49.216.255.78 11/07 12:02
fit8590: 會高很多 49.216.255.78 11/07 12:02
AirFuckKing: 那醫學系有幾成不合格? 111.71.115.89 11/07 12:09
StevoWu: 醫生說錯要賠償你。AI說錯你會叫它賠嗎? 219.87.148.66 11/07 12:20
StevoWu: 醫生當然少說少錯。 219.87.148.66 11/07 12:20
RaiGend0519: AI至少能給人一個開頭,講得好像自 1.168.10.201 11/07 12:35
RaiGend0519: 我照顧的300多天醫院有人能隨Call隨 1.168.10.201 11/07 12:35
RaiGend0519: 問一樣 1.168.10.201 11/07 12:35
rs36579tidus: 聽說AI是抄你們答案 49.216.186.68 11/07 12:39
ueu966: 開刀要簽同意書,如果AI可以開刀的話.. 27.240.160.166 11/07 12:49
jeanpaul: 及格的話就不會發表了 98.159.126.13 11/07 13:52
jhjhs33504: 通常google也是癌症起跳 要看怎麼問吧 1.162.74.119 11/07 15:38
Moon0: 5分鐘內要看完一個病人 能看多少啦 114.136.206.43 11/07 18:06
Eliad: 鄉下診所的老醫師,程度爛的非常恐怖 101.10.165.173 11/07 18:16
Eliad: 消毒衛生也沒做,超噁 101.10.165.173 11/07 18:17
Eliad: 問問題還會生氣 101.10.165.173 11/07 18:17
dream0131: AI證實:台大研究錯誤率高達7成 39.12.49.4 11/07 18:20
xswzaq70921: 有道理 要不要也測試一下一下醫生及 210.185.74.170 11/07 18:26
xswzaq70921: 不及格? 210.185.74.170 11/07 18:26
nitero: 要不要也測試台灣醫生看看? 看能多高 101.12.215.254 11/08 10:47
stare7500: 哪有用相同的標準去看每家醫院分數嗎125.235.172.153 11/08 12:54
stare7500: ?這樣有什麼比較性?125.235.172.153 11/08 12:54