首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态

ICML 2026｜让 Agent 真正协同作战：GoS 为多智能体推理构建共享信念状态

来源：互联网时间：2026-06-08 13:29:18

大语言模型在数学、代码这类封闭任务上已经刷新了不少上限，但一落到医疗诊断、故障排查这样的真实世界任务，真正的难题就暴露出来了——如何让多个智能体在充满不确定性的动态环境里，持续地协作、推理、调查。

拿医疗诊断来说，一个负责任的医生，绝不会一开始就让病人把能做的检查全做一遍。正确的逻辑是：根据当前的诊断方向，动态地安排影像科、检验科等不同科室逐步介入，一边补充证据，一边修正判断。

反观现有的多智能体推理方法，虽然看起来也做了分工，但往往只是停留在“串行接力”的层面——前一个智能体的输出直接丢给下一个接着处理。更普遍的问题是，它们通常默认所有证据已经提前备好，缺乏真正的自主调查和动态决策能力。

正如论文所总结的，这也是为什么CoT、ToT、GoT、FoT这些流行推理框架，一旦迁移到医疗诊断、分布式系统故障排查这类场景时，会频繁暴露出四类典型失败：证据伪造、上下文漂移、回溯失败和过早停止。

图 1: 传统推理框架在溯因任务中的四类典型问题

这些失败并非偶然，根子在于两个结构性缺陷。第一，很多方法把假设、证据和推理进展统统塞进非结构化的自然语言上下文里，缺乏一种显式的状态表示；第二，缺少状态控制机制，智能体要不要回溯、下钻还是终止，几乎全靠自由发挥。结果就是，在长程推理过程中，智能体很难稳定地维护推理状态，走着走着就容易偏航，或者过早地停在表面结论上。

针对这个问题，南开大学研究团队和联想合作提出了

Graph of States（GoS）

，一个面向通用溯因推理的神经符号框架。它的核心目标是给溯因任务显式构建一个

可维护、可回退、可收敛

的推理状态空间，把原本隐式、松散的推理过程转化为受约束的有向搜索。这项研究已被ICML 2026正式接收。

论文标题： Graph of States: Solving Abductive Tasks with Large Language Models
论文链接：https://arxiv.org/pdf/2603.21250
代码地址： https://github.com/gaorch85/Graph-of-States

目前，xCloud联想智能云正加速将GoS技术融入其智能运维产品体系，助力企业构建零故障、自愈合、业务感知的智能运维体系。

01 GoS：给推理加上“显式信念状态”

GoS的核心思想，是把多智能体协作与显式信念状态建模结合起来。整个系统分为两层：上层是认知层，负责具体领域内的多智能体协作；下层是符号层，负责维护结构化推理状态，并对过程进行导航和约束。

在认知层，GoS不再采用零散的功能原子，而是让中心智能体和专家智能体分别对应现实世界中的专业角色。比如在医疗场景里，可以有主治医生、影像科医生、病理科医生；在分布式系统场景里，则对应应用运维、Linux运维、网络运维和数据库运维。这种设计的目的很明确：让推理流程更贴近真实世界的协作分工，也让人更容易理解和审查。

图 2: GoS 总体框架：双层神经符号架构与整体推理流程

GoS最关键的创新在符号层。它不再把调查过程藏在非结构化的历史对话里，而是显式维护一个由因果图和状态机组成的信念状态。因果图负责记录症状、证据、假设以及它们之间的支持、反驳和细化关系；状态机则控制当前推理层级的进退，决定系统是继续收集证据、向更细粒度下钻，还是在出现冲突证据时回退到更早层次重新判断。

与此同时，GoS还引入了一个非常重要的机制：推理焦点（reasoning focus）。系统在每一步都不会平均地看所有可能的方向，而是聚焦当前层级中置信度最高的假设，把调查预算和推理资源集中到最值得追踪的分支上。这等于把原本容易发散的探索，变成了一场“有导航的调查”。

02 双层闭环：从推理焦点到证据更新

GoS的推理过程不是简单的“先计划、再执行”，而是一个持续循环的双向闭环。首先，符号层根据当前信念状态找到推理焦点，并将其转化为对认知层的调查指令；随后，认知层调用工具、获取证据并完成分析，再将结果返回符号层，用来更新因果图、重新校准假设置信度，并触发下一轮状态转换。

这个闭环让多智能体协作不再是无约束的自由发挥，而是始终围绕当前最有价值的假设前进。新获得的证据也不再只是停留在对话文本里，而是成为后续推理的坚实依据。

图 3: 双向神经 - 符号交互：从推理焦点引导调查，到新证据反向更新信念状态

03 关键机制：该回溯时回溯，该下钻时下钻

对溯因任务来说，真正困难的往往不是“生成一个答案”，而是在推理过程中根据证据变化，按规则决定状态的转移。为此，GoS设计了两类核心状态转换机制：

Backtracking

和

Drill-Down

。

与那些把决策完全交给智能体自由发挥的做法不同，GoS为状态演化引入了清晰的转移规则。具体来说，当当前推理路径上的某个上层祖先假设，在置信度重估后不再是该层最优候选时，系统会回退到对应层级，并剪除建立在错误前提上的后续分支。而下钻也不是“觉得差不多了就继续往下想”，只有当当前最优假设同时满足

足够的置信度优势和足够的支持证据数量

时，系统才会进一步细化到更具体的子假设。正是这种带有明确约束的状态控制，让GoS在面对非单调、动态演化的信息时，不再是简单地生成连贯文本，而是能够以更稳定、更可控的方式逐步逼近真正可执行的根因。

图 4: 状态转换：回溯（Backtracking）与下钻（Drill-Down）

04 实验：在两个高风险真实场景中验证 GoS

为了验证GoS的有效性和通用性，论文选择了两个极具现实意义的溯因场景：

医疗诊断和分布式系统故障诊断

。

在医疗诊断任务里，作者对DiagnosisArena基准做了一个关键改造：不再一开始就提供完整的辅助检查结果，而是只给病人主诉和基础体格检查，让智能体像真实医生一样主动申请检查、逐步获取外部信息，再完成诊断。这恢复了“主动取证、动态推理”的溯因本质。在这一任务上，GoS在Human-as-a-Judge评估下取得了

39.86% 的Match和78.99% 的Relevant

，明显优于所有基线方法，并且在更低成本下实现了更好的结果。

在分布式系统故障诊断任务里，论文基于真实生产环境构建了150个incident，要求智能体从初始告警出发，主动查询日志、指标和shell输出，逐步恢复故障上下文并定位root cause。实验结果显示，GoS取得了

70.67% 的Match

和

88.00% 的Relevant

，其中Match比最强基线高出

36.67个百分点

。这说明，很多方法虽然能判断“问题大概在哪个方向”，因此Relevant并不低，但要进一步收敛到真正可执行的细粒度根因，仍然需要持续调查、状态控制和层级下钻，而这正是GoS的优势。

表 1: 医疗诊断结果：GoS 在 Match 与 Relevant 上均优于所有基线

表 2: 分布式系统故障诊断结果：GoS 显著提升细粒度根因定位能力

作者还进一步进行了较为全面的消融实验与参数敏感性分析。结果表明，GoS的性能提升并非来自某个偶然技巧，而是确实依赖于推理焦点、因果图和状态机等关键模块的协同作用。同时，随着神经符号交互轮数、检索预算以及状态转移阈值的变化，GoS也表现出清晰且可解释的性能趋势，说明这个框架不仅有效，而且具备较好的稳定性与可控性。

表 3: 消融实验：显式因果图、状态机与推理焦点缺一不可

图 5: 敏感性分析：GoS 在不同预算和阈值配置下的性能变化

05 意义：从垂直场景方法走向通用推理框架

从更大的视角来看，GoS的意义不只是把医疗和AIOps两个任务做得更好了，而是向前推进了一个更根本的问题：对于真实世界中的高风险任务，智能体需要的并不只是更多知识、更多工具、更多上下文，还需要能在不完整信息下显式维护信念状态，处理冲突证据，在必要时回溯，在合适时下钻，最终把搜索过程稳定地导向真实根因。

从这个角度来看，GoS所面向的其实是当前智能体研究中非常关键的一类问题——

long-horizon reasoning

与

multi-turn interaction

：智能体不只是回答一次，而是要在持续调查和多轮交互中保持状态一致，并逐步收敛。

论文也指出，GoS并不排斥已有的领域特化方法，反而与它们互补。无论是医疗中的高质量知识库和RAG，还是AIOps中的多模态预处理和SOP检索，都可以与GoS结合，提升其在垂直场景中的搜索效率和决策可靠性。换句话说，GoS提供的不是一个专用智能体，而是一套面向溯因推理、也面向智能体长程推理的通用推理骨架。

作者简介

本文第一作者为罗宇，南开大学智能运维课题组博士一年级，主要研究方向为智能体长程推理、自进化智能体和根因分析。本文通讯作者为南开大学软件学院副教授、博士生导师孙永谦。他长期深耕智能运维（AIOps）领域，聚焦云原生、数据中心、超算、智算等领域的故障机理研究，同时致力于多智能体协作与大模型推理优化等前沿方向，持续推动面向复杂系统的智能决策研究。