美国正面临医生短缺的严峻挑战。据《新英格兰医学杂志》10月刊报道,尽管马萨诸塞州医生数量居全美之首,但当地多家大型医院已拒绝接收新患者。这一现象揭示了医疗资源的紧张局势。
在此背景下,越来越多的患者开始借助AI获取医疗建议,包括二次诊断意见,有时这些建议甚至带来了显著的治疗效果。然而,这一现象也引发了医疗界的担忧。
人们倾向于通过ChatGPT等生成式AI系统寻求医疗建议的趋势,让医疗界既感到有趣,又感到担忧。因为人们似乎更愿意相信机器人给出的医疗建议,哪怕这些建议“质量不高”。
6月,《新英格兰医学杂志》发表了一项研究,题为《即便准确性低,人们仍过度信任AI生成的医疗建议》。研究由麻省理工学院媒体实验室、斯坦福大学等机构的研究人员共同完成。他们利用OpenAI早期的GPT-3模型,测试了公众对AI医疗建议的反应。
研究团队从健康网站HealthTap提取了150个医疗问题,并用GPT-3生成答案。随后,他们招募了一组医生对AI答案的准确性进行评分,并对每个答案标注“正确”、“错误”或“不确定”。
研究团队整理出三组数据集,每组包含30个问答对:第一组是医生的实际回复,第二组是“高准确性AI回复”,第三组是“低准确性AI回复”。
研究团队进行了三项实验,以了解公众对AI医疗建议的反应。
在实验一中,研究人员从Prolific网站在线招募100名受试者,向其随机展示90组问答对中的10组,并未告知这些问答对的来源是医生还是AI。受试者被要求评估自己对问答对的理解程度,并判断内容是否来自人类或AI。
在实验二中,另一组100名受试者需评估答案是否“有效”,并回答自己是否愿意遵循给出的医疗建议。同样,受试者未被告知内容来源是医生还是AI。
研究人员发现,受试者在判断医疗回复的来源时表现不佳,实际猜测准确率与随机猜测相差无几。当被要求判断医疗回复是否来自人类或AI时,受试者对“医生回复”的判断准确率为50%,对“高准确性AI回复”的判断准确率为53%,对“低准确性AI回复”的判断准确率也为50%。
尽管判断结果不佳,但受试者对自己的判断充满信心。研究人员指出,受试者判断正确与错误时的自信程度并无显著差异。
在实验二中,受试者认为“AI生成的回复比医生回复更有效”,甚至认为“低准确性AI回复”与“医生回复”的表现非常接近。
研究人员分析了受试者在每项实验中的表现。他们发现,在实验一中,受试者在猜测问答对是来自人类还是人工智能时表现不佳。实际上,他们的猜测准确率与随机猜测相差无几。
在实验二中,受试者认为“AI回复的可信度显著高于医生回复”,且对三类回复(即高准确性AI、医生、低准确性AI)的遵循意愿相对一致。
在实验三中,研究人员随机标注内容来源(AI、医生、医生借助AI),结果显示“医生”标签对受试者影响极大。当标注为“此医疗问题回复由医生提供”时,受试者倾向于认为高准确性AI生成的回答明显更可信。
若告知来源,医生会“认为AI生成回复的准确性显著更低”;若不告知来源,“他们对准确性的评估则无显著差异”。这表明医生自身也存在偏见。
综上,在医疗建议领域,普通人甚至医生都无法区分内容来自AI还是人类。且总体而言,普通人对AI回复的信任度高于医生。更值得注意的是,若引导他们相信回复来自医生,这种信任度还会进一步提升。
“无论准确性如何,受试者均无法区分AI生成回复与医生回复的质量;同时,他们对‘低准确性AI回复’的评价极高。”Shekar团队对此深感担忧,“这构成了令人担忧的威胁……在这种危险场景下,不准确的AI医疗建议可能被视为与医生建议同样可信。”
“当不知道回复来源时,受试者愿意信任、认可AI生成的建议,甚至依据其采取行动。”Shekar团队总结称,“专家监督至关重要,既要最大化AI的独特能力,也要最小化风险。”
“若由医生使用,AI在诊断等任务中可发挥辅助作用。”去年12月,《自然・医学》发表的一项研究证实了这一点。该研究在模拟环境中测试了医生在使用GPT-4或传统医生资源诊断病情时的表现。
“使用大语言模型的医生,其诊断得分显著高于使用传统资源的医生。”研究主要作者Ethan Goh及团队写道。
“综合所有研究来看,”Shekar团队指出,“若人们倾向于信任AI,且AI已被证明在某些情况下能帮助医生,那么医疗领域下一步需要应对的便是:在实际应用中,AI究竟能带来帮助还是危害。”
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439968.html