東京醫科齒科大學的研究團隊驗證了ChatGPT在自我診斷骨科疾病的可靠性,發現診斷的準確度和重複性較低。他們還發現,正確答案的比率會根據問題的提出方式而變化,並闡明了獲得高可靠性的要點。
使用人工智慧聊天機器人在就診前進行自我診斷的患者數量正在增加,並且預計未來這一數字將繼續增加。然而,儘管已經有幾項研究評估了ChatGPT在自我診斷中的正確答案率,但還沒有關於其可重複性或建議進行體檢的程度的研究。
在這項研究中,五名研究人員在五天內使用完全相同的文本反覆詢問 ChatGPT(版本 5)有關五種骨科疾病的問題,並驗證答案。正確答案率和重現性因疾病而異,正確答案率最低僅 5%,重現性為「差」。此外,只有約 5% 的受訪者堅決建議到醫療機構就診。此外,他們發現正確答案率因提問方式而異,並提出了更優選的問題格式。
這項研究強調了 ChatGPT 醫療使用上的問題。預計這將提高生成式人工智慧作為自我診斷工具的安全性,並為開髮用於醫療援助的新型生成式人工智慧系統做出重大貢獻。未來,他們計劃探索針對每種疾病狀態的適當詢問方法,使用ChatGPT以外的一代AI以及ChatGPT的新版本進行研究,並評估其可靠性。