一项新研究发现,虽然先进的人工智能(AI)模型在专业医学考试中得分很高,但在医生最重要的任务之一 ——与患者交谈以收集相关医疗信息并提供准确诊断方面,仍然表现不佳。1月2日,相关研究成果发表于《自然-医学》。

图片来源:Just_Super/Getty Images
美国哈佛大学的Pranav Rajpurkar说:“虽然大型语言模型在多项选择测试中的表现令人印象深刻,但在动态对话中,它们的准确性明显下降,特别是难以进行开放式诊断推理。”
当研究人员开发出一种基于模拟医患对话评估临床AI模型推理能力的方法时,这一点变得很明显。这些“患者”基于2000个医疗案例,主要来自美国医学委员会的专业考试。
同样来自哈佛大学的Shreya Johri说:“模拟患者互动可以评估病史采集技能,这是临床实践的一个关键组成部分。”她表示,新的评估基准被称为CRAFT-MD,也“反映了现实生活中的情况,即患者可能不知道哪些细节是至关重要的,只有在特定问题提示时才会披露重要信息”。
CRAFT-MD基准本身依赖于AI。美国OpenAI公司的GPT-4模型在与正在测试的“临床AI”的对话中扮演了“患者AI”的角色。GPT-4还通过将“临床AI”的诊断与每个病例的正确答案进行比较,帮助对结果进行评分。人类医学专家仔细检查了这些评估。他们还审查了对话,以检查“患者AI”的准确性,并查看“临床AI”是否成功收集了相关的医疗信息。
多项实验表明,4种领先的大型语言模型——OpenAI的GPT-3.5和GPT-4模型、美国Meta公司的Llama-2-7b模型和法国Mistral AI公司的Mistral-v2-7b模型,在基于对话的基准测试中的表现比基于书面病例总结进行诊断时差得多。3家公司没有回应置评请求。
例如,当提供结构化的病例摘要并允许从多项选择答案列表中选择诊断时,GPT-4模型的诊断准确性达到了令人印象深刻的82%,而当没有多项选择选项时,其诊断准确率降至49%以下。然而,当它不得不通过模拟的患者对话进行诊断时,准确率降至26%。
在这项研究中,GPT-4模型的表现在测试中是最好的,GPT-3.5模型通常次之,Mistral-v2-7b模型排在第二位或第三位,Llama-2-7b模型通常得分最低。
AI模型在很大程度上也未能收集完整的病史,比如GPT-4模型仅在71%的模拟患者对话中做到了这一点。即使AI模型确实收集了患者的相关病史,它们也并不总是能作出正确的诊断。
美国斯克利普斯研究转化研究所的Eric Topol表示,这种模拟患者对话的方式代表了一种比医学检查“更有用”的评估AI临床推理能力的方法。
Rajpurkar说,即使一个AI模型最终通过了这一基准,能够根据模拟的患者对话持续作出准确诊断,也并不一定意味着它优于人类医生。他指出,现实世界中的医疗实践比模拟中的“更混乱”。它涉及管理多名患者、与医疗团队协调、进行身体检查,以及了解当地医疗情况中“复杂的社会和系统因素”。“AI可能是支持临床工作的强大工具,但不一定能取代经验丰富的医生的整体判断。”Rajpurkar说。
相关论文信息:https://doi.org/10.1038/s41591-024-03328-5
“当人工智能(AI)重构商业逻辑,当可持续发展成为全球命题,商学教育该如何重塑其DNA?学术界与产业界又该构建怎样的共生生态?”9月5日,北师香港浸会大学校长陈致在首届粤港澳大湾区未来商业论坛上致辞时......
8月26日国发〔2025〕11号颁布了《国务院关于深入实施“人工智能+”行动的意见》这一重要文件,其中特别强调“人机协同、跨界融合、共创分享的智能经济和智能社会新形态”,其核心就是要积极构建“人、机(......
美国科学家研究发现,一个由人工智能(AI)担任副驾的脑机接口或能让瘫痪人士更好地完成任务。该技术能让瘫痪受试者在移动计算机光标或操作机械臂这类任务中的表现提升为原先的近4倍。相关研究9月1日发表于《自......
8月30日,“人工智能与先进计算融合创新学术会议”在复旦大学举行,400余位专家学者参会,共同探讨如何实现人工智能(AI)与先进计算的融合创新,让AI真正走出“工具”窠臼,迈向“自主智能”新纪元。会议......
近日,南方科技大学环境科学与工程学院教授郑一团队与中国科学院大气物理研究所等多家单位合作,在《地球物理研究快报》发表最新研究成果,他们提出了生成式人工智能预报洪水的新防范,不仅为洪水预报技术带来了新思......
麻省理工学院(MIT)与杜克大学的研究人员通过引入机器学习模型识别的应力响应分子,成功研制出抗撕裂性更强的聚合物材料。这项强化聚合物材料的新策略有望催生更耐用的塑料,从而减少塑料废弃物。研究团队利用机......
一项关于蜜蜂如何利用飞行运动实现高度精准学习与识别复杂视觉模式的新发现,可能标志着下一代人工智能开发方式的重大变革。英国谢菲尔德大学科研团队构建了蜜蜂大脑的数字模型,揭示这些运动如何产生清晰高效的脑部......
当前,人工智能(AI)技术的迅猛发展正驱动社会各领域体系性变革,医学研究与卫生健康领域迎来历史性变革。AI通过提升诊疗精准度、优化决策效率、重塑服务模式,持续释放改善医疗质量与患者体验的革命性潜能,成......
近日,由国际电信联盟(ITU)等主办的2025年人工智能向善全球峰会在瑞士日内瓦举行。记者获悉,鹏城实验室组团参加该峰会并展示了面向网络通信与人工智能融合的代表性成果,包括语义通信技术和标准化、智能编......
“决策”,是叶生晅人生中的关键词。这不仅是一个哲学命题,也是贯穿于心理学、认知科学与经济学的核心议题。在叶生晅的人生轨迹中,“决策”的重要性清晰可见——他总是在关键节点跳出路径依赖,作出那些看似“反直......