問ChatGPT代替睇醫生?牛津研究:AI問診衰過自行Google 真假混雜易誤判病情 錯過求醫黃金期
隨著ChatGPT等生成式人工智能(AI)普及,越來越多市民身體抱恙時嘗試向AI「問診」。然而,英國牛津大學於今年2月在權威期刊《自然—醫學》(Nature Medicine)發表的最新研究警告,依賴大型語言模型(LLMs)作醫療決策可能帶來嚴重風險,其準確度甚至不比傳統網上搜尋優勝,隨時令病人誤判病情,錯失求醫黃金時機。
牛津實測:AI「紙上談兵」難應對真實病況
這項由牛津互聯網研究所與納菲爾德初級保健健康科學系聯手進行的研究,招募了約1,300名英國參與者進行對照試驗。實驗模擬了「年輕男子夜晚聚會後劇烈頭痛」或「新手媽媽持續氣促」等具體情境。
結果發現,使用GPT-4o、Llama 3等AI模型協助的參與者,在識別潛在病況及決定下一步行動(如自我護理、預約醫生或前往急症室A&E)的準確率上,並不比使用互聯網搜尋或憑自身判斷的對照組優勝,甚至在識別病況上表現更差。這反映AI在醫療考試獲高分與臨床應用之間存在巨大鴻溝。
用戶不懂「問」 AI不懂「答」
為何AI面對真實個案束手無策?研究團隊發現了三大核心問題,導致了這種「溝通斷層」。首先,缺乏醫學背景的用戶往往遺漏關鍵病徵描述,導致AI無法掌握全貌。其次,AI的回覆極不穩定,即使問題僅有輕微差異,建議卻可能截然不同。
最危險的是,AI常在回覆中混合正確與錯誤資訊,普通市民難以分辨。由於AI語氣流暢自信,易令病人誤信其錯誤建議,AI亦容易被看似權威的虛假資訊誤導。
專家:AI應用需如新藥般嚴謹測試
研究團隊的Rebecca Payne醫生警告:「儘管外界對AI醫療充滿熱情,但AI尚未準備好承擔醫生角色。」她指出,病人若盲目向AI查詢,可能會得到錯誤診斷,更危險的是AI可能無法識別出需要緊急醫療介入的危急情況。
研究資深作者、牛津大學副教授Adam Mahdi強調,目前的基準測試與現實脫節。他認為AI系統在投入醫療領域前,必須像新藥推出前一樣,經過涵蓋真實用戶的嚴格臨床試驗及安全測試。在監管完善前,市民遇有不適,應以專業醫護意見為準,切勿盡信「AI醫生」以免延誤病情。
