两款AI智能体在临床决策中的表现超越医生
大语言模型在临床决策中表现抢眼,但距离真实落地还有多远?
大语言模型在医疗领域的应用,一直是个备受关注的话题。最近两项研究给出了令人惊喜的结果——两款基于大语言模型的AI智能体,在虚拟测试中展示出了媲美甚至超越医生的临床决策能力。不过,研究团队也冷静地指出:目前这些模型还远未达到能在真实医疗环境中部署的地步。

这两款智能体分别是由德国学术团队开发的MIRA,以及谷歌开发的AMIE。相关成果已经在《自然》期刊上发表。研究结果表明,大语言模型在医疗领域具备成为综合性工具的潜力——不仅仅是辅助诊断,而是可以承担诊断分析、患者管理、制定护理计划等一系列任务,这远远超出了它们目前在临床中仅用于单一功能的应用边界。
先来看MIRA。它的全称是“医疗智能推理与行动系统”,能够综合患者病史、实验室检验结果、影像数据和微生物检测信息。在针对八种测试病症的诊断中,MIRA的准确率与不同经验层级的医生以及委员会认证医师相当,甚至在某些病症(比如胰腺炎)上表现更优。不仅如此,在手术操作排序、静脉输液管理和镇痛药使用等任务中,MIRA同样优于医生——其99.8%的用药建议被评定为正确,治疗决策与临床指南的吻合程度也更高。
另一款智能体AMIE则与全科医生进行了直接对比。结果显示,AMIE生成的治疗方案和检查计划,在评分和针对性上都优于医生,在多项指标上达到非劣效性标准,且数值层面明显胜出。不过,两支研究团队都给出了同样的结论:虽然结果令人期待,但在投入真实临床之前,大语言模型必须经过前瞻性研究的验证——部分案例中仍存在与推荐做法相悖的情况,这必须引起警惕。
爱丁堡大学健康信息学与数据科学教授朱莉·雅科对这两项研究给予了高度评价,认为它们都做得严谨扎实。但她同时指出,这些性能表现是在模拟环境中取得的,无法完整还原“真实临床决策的复杂性”。牛津大学社会学家凯瑟琳·波普教授也持相近观点:这些研究与“日常医疗中混乱、复杂、充满人情味的真实世界”还有相当距离——在那里,医生往往需要应对不完整甚至相互矛盾的数据。她补充道:“这些技术在现实中的应用,必须与临床医生协同推进。它们不太可能取代医生,况且许多人认为,AI在本质上无法也不应该替代医疗中至关重要的人文关怀。”
心脏病学家、斯克里普斯研究转化研究所所长埃里克·托波尔则从临床视角提出了一个关键局限:MIRA和AMIE都是纯文本AI。“也就是说,医疗实践中的诸多要素——从患者的非语言表达和语气,到实际医学影像的读取——都未被纳入其中。”不过他同时也表示:“这些大语言模型将持续进化。事实上,上述两篇论文中使用的模型已经过时。可以将MIRA和AMIE视为在模拟条件约束下迈出的重要一步,而非真正意义上的临床医学。但AI能力的提升速度极快,将这些优势延伸至真实医疗实践,或许并不遥远。”
Q&A
Q1:MIRA在临床诊断中的准确率如何?
A:MIRA在八种测试病症中的诊断准确率与不同经验层级医生及委员会认证医师相当,在部分病症上表现更优,尤其是胰腺炎的诊断。此外,其99.8%的用药建议被评定为正确,治疗决策与临床指南的吻合程度也高于对照医生组。
Q2:AMIE与全科医生相比,表现如何?
A:AMIE生成的治疗方案和检查计划在评分和针对性上均优于全科医生,在多项指标上达到非劣效性标准,且在数值层面表现更优。但研究团队强调,这些结果来自模拟环境,尚需前瞻性研究验证,才能真正应用于临床实践。
Q3:MIRA和AMIE目前能否在真实医疗场景中使用?
A:目前还不能。研究人员指出,这两款智能体均在模拟环境中测试,无法完整反映真实临床的复杂性。此外,两者均为纯文本AI,无法处理医学影像或捕捉患者的非语言信息。专家普遍认为,未来应用需与临床医生协同,而非替代医生。