首页 > 教程攻略 > ai资讯 >两款AI智能体在临床决策中的表现超越医生

两款AI智能体在临床决策中的表现超越医生

来源：互联网时间：2026-06-19 08:00:23

大语言模型在临床决策中表现抢眼，但距离真实落地还有多远？

大语言模型在医疗领域的应用，一直是个备受关注的话题。最近两项研究给出了令人惊喜的结果——两款基于大语言模型的AI智能体，在虚拟测试中展示出了媲美甚至超越医生的临床决策能力。不过，研究团队也冷静地指出：目前这些模型还远未达到能在真实医疗环境中部署的地步。

这两款智能体分别是由德国学术团队开发的MIRA，以及谷歌开发的AMIE。相关成果已经在《自然》期刊上发表。研究结果表明，大语言模型在医疗领域具备成为综合性工具的潜力——不仅仅是辅助诊断，而是可以承担诊断分析、患者管理、制定护理计划等一系列任务，这远远超出了它们目前在临床中仅用于单一功能的应用边界。

先来看MIRA。它的全称是“医疗智能推理与行动系统”，能够综合患者病史、实验室检验结果、影像数据和微生物检测信息。在针对八种测试病症的诊断中，MIRA的准确率与不同经验层级的医生以及委员会认证医师相当，甚至在某些病症（比如胰腺炎）上表现更优。不仅如此，在手术操作排序、静脉输液管理和镇痛药使用等任务中，MIRA同样优于医生——其99.8%的用药建议被评定为正确，治疗决策与临床指南的吻合程度也更高。

另一款智能体AMIE则与全科医生进行了直接对比。结果显示，AMIE生成的治疗方案和检查计划，在评分和针对性上都优于医生，在多项指标上达到非劣效性标准，且数值层面明显胜出。不过，两支研究团队都给出了同样的结论：虽然结果令人期待，但在投入真实临床之前，大语言模型必须经过前瞻性研究的验证——部分案例中仍存在与推荐做法相悖的情况，这必须引起警惕。

爱丁堡大学健康信息学与数据科学教授朱莉·雅科对这两项研究给予了高度评价，认为它们都做得严谨扎实。但她同时指出，这些性能表现是在模拟环境中取得的，无法完整还原“真实临床决策的复杂性”。牛津大学社会学家凯瑟琳·波普教授也持相近观点：这些研究与“日常医疗中混乱、复杂、充满人情味的真实世界”还有相当距离——在那里，医生往往需要应对不完整甚至相互矛盾的数据。她补充道：“这些技术在现实中的应用，必须与临床医生协同推进。它们不太可能取代医生，况且许多人认为，AI在本质上无法也不应该替代医疗中至关重要的人文关怀。”

心脏病学家、斯克里普斯研究转化研究所所长埃里克·托波尔则从临床视角提出了一个关键局限：MIRA和AMIE都是纯文本AI。“也就是说，医疗实践中的诸多要素——从患者的非语言表达和语气，到实际医学影像的读取——都未被纳入其中。”不过他同时也表示：“这些大语言模型将持续进化。事实上，上述两篇论文中使用的模型已经过时。可以将MIRA和AMIE视为在模拟条件约束下迈出的重要一步，而非真正意义上的临床医学。但AI能力的提升速度极快，将这些优势延伸至真实医疗实践，或许并不遥远。”