ICML 2026|让 Agent 真正协同作战:GoS 为多智能体推理构建共享信念状态
大语言模型在数学、代码这类封闭任务上已经刷新了不少上限,但一落到医疗诊断、故障排查这样的真实世界任务,真正的难题就暴露出来了——如何让多个智能体在充满不确定性的动态环境里,持续地协作、推理、调查。

拿医疗诊断来说,一个负责任的医生,绝不会一开始就让病人把能做的检查全做一遍。正确的逻辑是:根据当前的诊断方向,动态地安排影像科、检验科等不同科室逐步介入,一边补充证据,一边修正判断。
反观现有的多智能体推理方法,虽然看起来也做了分工,但往往只是停留在“串行接力”的层面——前一个智能体的输出直接丢给下一个接着处理。更普遍的问题是,它们通常默认所有证据已经提前备好,缺乏真正的自主调查和动态决策能力。
正如论文所总结的,这也是为什么CoT、ToT、GoT、FoT这些流行推理框架,一旦迁移到医疗诊断、分布式系统故障排查这类场景时,会频繁暴露出四类典型失败:证据伪造、上下文漂移、回溯失败和过早停止。

这些失败并非偶然,根子在于两个结构性缺陷。第一,很多方法把假设、证据和推理进展统统塞进非结构化的自然语言上下文里,缺乏一种显式的状态表示;第二,缺少状态控制机制,智能体要不要回溯、下钻还是终止,几乎全靠自由发挥。结果就是,在长程推理过程中,智能体很难稳定地维护推理状态,走着走着就容易偏航,或者过早地停在表面结论上。
针对这个问题,南开大学研究团队和联想合作提出了
Graph of States(GoS)
可维护、可回退、可收敛
论文标题: Graph of States: Solving Abductive Tasks with Large Language Models
论文链接:https://arxiv.org/pdf/2603.21250
代码地址: https://github.com/gaorch85/Graph-of-States
目前,xCloud联想智能云正加速将GoS技术融入其智能运维产品体系,助力企业构建零故障、自愈合、业务感知的智能运维体系。
01 GoS:给推理加上“显式信念状态”
GoS的核心思想,是把多智能体协作与显式信念状态建模结合起来。整个系统分为两层:上层是认知层,负责具体领域内的多智能体协作;下层是符号层,负责维护结构化推理状态,并对过程进行导航和约束。
在认知层,GoS不再采用零散的功能原子,而是让中心智能体和专家智能体分别对应现实世界中的专业角色。比如在医疗场景里,可以有主治医生、影像科医生、病理科医生;在分布式系统场景里,则对应应用运维、Linux运维、网络运维和数据库运维。这种设计的目的很明确:让推理流程更贴近真实世界的协作分工,也让人更容易理解和审查。

GoS最关键的创新在符号层。它不再把调查过程藏在非结构化的历史对话里,而是显式维护一个由因果图和状态机组成的信念状态。因果图负责记录症状、证据、假设以及它们之间的支持、反驳和细化关系;状态机则控制当前推理层级的进退,决定系统是继续收集证据、向更细粒度下钻,还是在出现冲突证据时回退到更早层次重新判断。
与此同时,GoS还引入了一个非常重要的机制:推理焦点(reasoning focus)。系统在每一步都不会平均地看所有可能的方向,而是聚焦当前层级中置信度最高的假设,把调查预算和推理资源集中到最值得追踪的分支上。这等于把原本容易发散的探索,变成了一场“有导航的调查”。
02 双层闭环:从推理焦点到证据更新
GoS的推理过程不是简单的“先计划、再执行”,而是一个持续循环的双向闭环。首先,符号层根据当前信念状态找到推理焦点,并将其转化为对认知层的调查指令;随后,认知层调用工具、获取证据并完成分析,再将结果返回符号层,用来更新因果图、重新校准假设置信度,并触发下一轮状态转换。
这个闭环让多智能体协作不再是无约束的自由发挥,而是始终围绕当前最有价值的假设前进。新获得的证据也不再只是停留在对话文本里,而是成为后续推理的坚实依据。

03 关键机制:该回溯时回溯,该下钻时下钻
对溯因任务来说,真正困难的往往不是“生成一个答案”,而是在推理过程中根据证据变化,按规则决定状态的转移。为此,GoS设计了两类核心状态转换机制:
Backtracking
Drill-Down
与那些把决策完全交给智能体自由发挥的做法不同,GoS为状态演化引入了清晰的转移规则。具体来说,当当前推理路径上的某个上层祖先假设,在置信度重估后不再是该层最优候选时,系统会回退到对应层级,并剪除建立在错误前提上的后续分支。而下钻也不是“觉得差不多了就继续往下想”,只有当当前最优假设同时满足
足够的置信度优势和足够的支持证据数量

04 实验:在两个高风险真实场景中验证 GoS
为了验证GoS的有效性和通用性,论文选择了两个极具现实意义的溯因场景:
医疗诊断和分布式系统故障诊断
在医疗诊断任务里,作者对DiagnosisArena基准做了一个关键改造:不再一开始就提供完整的辅助检查结果,而是只给病人主诉和基础体格检查,让智能体像真实医生一样主动申请检查、逐步获取外部信息,再完成诊断。这恢复了“主动取证、动态推理”的溯因本质。在这一任务上,GoS在Human-as-a-Judge评估下取得了
39.86% 的Match和78.99% 的Relevant
在分布式系统故障诊断任务里,论文基于真实生产环境构建了150个incident,要求智能体从初始告警出发,主动查询日志、指标和shell输出,逐步恢复故障上下文并定位root cause。实验结果显示,GoS取得了
70.67% 的Match
88.00% 的Relevant
36.67个百分点


作者还进一步进行了较为全面的消融实验与参数敏感性分析。结果表明,GoS的性能提升并非来自某个偶然技巧,而是确实依赖于推理焦点、因果图和状态机等关键模块的协同作用。同时,随着神经符号交互轮数、检索预算以及状态转移阈值的变化,GoS也表现出清晰且可解释的性能趋势,说明这个框架不仅有效,而且具备较好的稳定性与可控性。


05 意义:从垂直场景方法走向通用推理框架
从更大的视角来看,GoS的意义不只是把医疗和AIOps两个任务做得更好了,而是向前推进了一个更根本的问题:对于真实世界中的高风险任务,智能体需要的并不只是更多知识、更多工具、更多上下文,还需要能在不完整信息下显式维护信念状态,处理冲突证据,在必要时回溯,在合适时下钻,最终把搜索过程稳定地导向真实根因。
从这个角度来看,GoS所面向的其实是当前智能体研究中非常关键的一类问题——
long-horizon reasoning
multi-turn interaction
论文也指出,GoS并不排斥已有的领域特化方法,反而与它们互补。无论是医疗中的高质量知识库和RAG,还是AIOps中的多模态预处理和SOP检索,都可以与GoS结合,提升其在垂直场景中的搜索效率和决策可靠性。换句话说,GoS提供的不是一个专用智能体,而是一套面向溯因推理、也面向智能体长程推理的通用推理骨架。
作者简介
本文第一作者为罗宇,南开大学智能运维课题组博士一年级,主要研究方向为智能体长程推理、自进化智能体和根因分析。本文通讯作者为南开大学软件学院副教授、博士生导师孙永谦。他长期深耕智能运维(AIOps)领域,聚焦云原生、数据中心、超算、智算等领域的故障机理研究,同时致力于多智能体协作与大模型推理优化等前沿方向,持续推动面向复杂系统的智能决策研究。