首页 > 教程攻略 > ai资讯 >Agent自进化新范式:孙立超团队提出OpenSkill,刷新多项基准SOTA

Agent自进化新范式:孙立超团队提出OpenSkill,刷新多项基准SOTA

来源:互联网 时间:2026-06-09 14:58:01

当前,自进化Agent的持续学习基本都靠成功轨迹、现成技能或者明确反馈。可在真实部署场景下,这些前提条件往往很难同时满足,结果就是Agent不断卡在原地,既没法积累经验,也没办法迭代自己的表现。

针对这个瓶颈,里海大学孙立超团队与合作者提出了一个新的框架——

OpenSkill

。它和那种依赖人工标注、大模型生成、或者监督信号的自进化方法完全不同,核心思路是:

即使不依赖目标任务的监督信号,Agent也能自己拿到可执行、可迁移的技能

结果显示,

OpenSkill在多个基准测试上都达到了SOTA的自动化表现

,而且学到的技能还能直接迁移到能力更弱的模型上,效果相当不错。

图|自进化Agent技能的范式。

OpenSkill 是怎么设计出来的?

一句话概括:OpenSkill是一个面向开放世界的Agent技能框架。它把任务指令、执行环境、基础模型、工具访问权限、开放世界资源这些因素作为输入,整个流程拆成三步:

开放世界知识获取

无泄漏技能进化

、以及

零样本目标评估

图|OpenSkill 框架概览。

开放世界知识获取:

团队先到开放世界里找两类信息。一类叫“任务知识”,像背景概念、API文档、最佳实践、代码示例这一类,用来辅助技能规划;另一类是“验证知识”,包括参考值、统计不变量、交叉验证流程,以及已知的输入输出样例,这些专门用来支撑后面的虚拟测试。

无泄漏技能进化:

拿到了任务知识和验证知识以后,OpenSkill会先生成候选技能,然后通过自动构造的虚拟任务,反复地测试、筛选、改进这些技能。整个过程里,目标任务的标准答案完全没有泄露出来,真实测试集也不会提前掺合到技能构建阶段。

零样本目标评估:

技能进化完成后,最后会以显式文件的形式部署到目标Agent上。只有那个藏起来的真实测试集,才会在这一步拿来做最终评估,完全不参与前面的技能构建与迭代。一句话说就是:训练归训练,测试归测试,互不干扰。

实验结果怎么样?

为了验证OpenSkill到底行不行,团队从

基准测试表现

技能迁移

消融实验

三个方面做了评估,结果如下:

1. 基准测试:OpenSkill总体表现领先

OpenSkill在三个基准测试、两个目标Agent上,都拿到了最佳自动化表现。在SkillsBench上,它把Opus 4.6和GPT 5.2的总体通过率直接抬到了43.6%和42.1%,比最强基线高出了8.9和8.8个百分点,离人类参考上限只差1到3个百分点。更有意思的是,在Opus 4.6上,11个领域里有8个都达到了最佳或并列最佳的效果。

图|SkillsBench在11个领域的主要结果:展示了两个目标Agent在各领域上的平均奖励。

类似的优势也出现在另外两个基准上。在

SocialMaze

里,OpenSkill让Opus 4.6和GPT 5.2的通过率分别达到了82.7%和70.7%;在

ScienceWorld

里,这两个数字是90.0%和85.3%。团队指出,在这四组设置里,

OpenSkill就是所有自动化方法里表现最好的

,没有之一。

图|两个目标Agent在SocialMaze和ScienceWorld上的平均奖励。

2. 技能迁移:不用额外适配,就能迁移到更弱模型

在技能迁移这部分,团队把Opus 4.6生成的技能,直接移植到了Haiku 4.5、Qwen 3Coder、DeepSeek V3、Mistral Large 3这4个更弱的模型上,完全没做额外适配。结果很清楚:

这些技能在4个目标模型上都带来了非常明显的增益

,跟没有技能的基线相比,提升了5.5到14.8个百分点。这说明学出来的技能确实有泛化价值,不是针对特定模型“定制”的。

图|由Opus 4.6生成的技能迁移到其他模型后,在SkillsBench上获得的平均奖励。

3. 消融实验:三轮迭代效果最好

在SocialMaze上,OpenSkill在3轮迭代时达到了最高的82.7%,但如果继续增加到5轮和10轮,效果反而往下走。消融结果也指出,开放世界检索和虚拟验证器,每一块单拎出来都能提升表现,但合在一起效果才最好。团队进一步发现,

虚拟验证器跟真实评测结果之间的一致性很高

,能覆盖88.9%的真实测试意图,还能额外补充格式、类型、边界条件之类的检查——等于在真实评测之外加了一层非常实用的“保险”。

图|SocialMaze上的消融实验。

局限与未来方向

当然,团队的坦诚也值得关注。开放世界知识源本身就可能存在噪声、过时甚至相互矛盾的信息,而虚拟任务也很难完全复现真实任务的复杂程度。尤其在深层语义验证和反作弊元验证这些环节上,目前的覆盖还比较有限。

另一个不得不提的问题:

成本高、耗时长

。在SkillsBench的84个任务上,端到端API总成本大约1800美元,单任务要消耗大约1.14M tokens,差不多耗时131分钟。但好在一套技能只需创建一次,后续迁移到其他模型时就不需要重新搞了。

展望未来,团队明确了三个大方向:提升知识源的可信度、增强虚拟任务对真实任务的覆盖能力、以及想办法降低整体成本与时延。毕竟,成本也是落地时绕不开的大山。

更多技术细节,可以参考原论文。