医疗大模型评测新突破：主动问诊与循证能力成关键指标

来源：互联网时间：2026-06-26 20:07:10

近期，医疗领域的大模型技术竞争呈现出新的趋势，评测重点正从简单的知识问答转向更贴近真实临床需求的动态交互与循证能力。这一变化不仅影响着医疗AI产品的研发方向，也为普通用户获取可靠医疗信息、辅助健康管理带来了更实际的工具选择。

在最新发布的评测结果中，新一代医疗增强大模型在多项关键指标上表现突出。该模型在OpenAI提出的医疗评测基准HealthBench上，综合得分达到68.6，位列榜首，

领先第二名超过10分

。在最考验复杂临床决策的Hard子集上，其领先优势进一步扩大至15.9分。同时，模型的幻觉率被控制在3.3%的低水平。

动态问诊能力显著提升

与以往模型被动等待用户提供完整信息不同，新一代模型能够主动追问症状的性质与诱因，并优先识别和排查危急重症。这一能力的提升，源于研发团队借鉴了医学教育中长期使用的OSCE（客观结构化临床考试）方法。团队联合150多位一线医生，构建了动态问诊评测体系SCAN-bench，该体系以真实临床经验为评分标准，通过多轮、动态的方式完整模拟医生从接诊到确诊的全过程。

在这套更贴近实际的评测中，该模型在初诊环节得分79.0，复诊环节得分74.7，均明显领先于其他主流大模型。这表明其在理解复杂病情、进行连续推理方面具备了更强的实用性。

全病程记忆与循证引用创新

为了解决患者在多次咨询中需要重复描述病史的问题，新模型引入了“全病程记忆”功能。该功能能够打通历史病历、多轮问诊、化验趋势与用药反馈，

让模型在多次对话中始终掌握患者的完整健康状况

，而不必每次从零开始。在专门的长上下文临床记忆评测中，该模型取得86.9分，为同类最高，较上一代产品提升21.1分。

在确保信息可靠性方面，模型采用了创新的“证据锚定”机制。该机制要求模型生成的每一句医学结论，都必须精确对应到原始论文或指南中的具体段落，而不仅仅是标注文献。依托六源循证范式，模型只在权威医学中检索，不从开放网络抓取资料。在此基础上，模型还将权威指南、专家共识与真实诊疗流程，拆解为标准化、可复用的临床路径单元，目前已超过1000个，覆盖200余种疾病，每一条都由资深临床专家定义和校验。

在专门的循证医学评测中，该模型的循证引用精度达到90.0，显著高于其他对比模型。这些技术改进共同指向一个目标：让AI辅助的医疗咨询更加安全、连贯且有理有据，为使用者提供更值得信赖的参考信息。

医疗大模型评测新突破：主动问诊与循证能力成关键指标

领先第二名超过10分

动态问诊能力显著提升

全病程记忆与循证引用创新

让模型在多次对话中始终掌握患者的完整健康状况

相关阅读

相关下载