SkillOpt - 微软开源的Agent技能文档优化工具
来源:互联网
时间:2026-06-26 14:03:28
SkillOpt是什么
把Agent的技能文档当成神经网络来训练——这就是SkillOpt的核心思路。微软开源的这款工具,把深度学习的那套训练逻辑搬到了文本空间里:将skill.md视为可训练参数,通过轨迹分析生成编辑方向,用文本学习率约束有界修改,再经保留验证集门控筛选,最终迭代产出best_skill.md。更关键的是,它支持跨模型、跨工具链迁移,部署时零额外开销。在52个评估单元中全部达到最佳,让Agent技能的优化变得像神经网络一样可量化、可复现。
SkillOpt的主要功能
- :像训练神经网络那样迭代优化
技能文档训练
skill.md,包含前向传播、反向传播、参数更新和验证门控。 - :通过文本学习率限制每次编辑的幅度,避免语义跳变或覆盖已有有效规则。
有界编辑控制
- :记录被验证门拒绝的编辑方向,防止优化循环中反复踩同一个坑。
拒绝编辑缓冲
- :在一个模型上训练出的技能文档,可直接迁移到同系列小模型、不同工具链(如Codex ↔ Claude Code),或相近的基准测试。
跨模型/跨工具迁移
- :最终产物只是一个300–2000 token的Markdown文件,部署时不需要额外增加推理调用。
零部署开销
如何使用SkillOpt
- :通过pip安装SkillOpt及其依赖。
安装
- :复制环境变量模板文件,填入OpenAI、Azure或Anthropic等平台的API密钥。
配置API
- :将原始任务数据按训练集、验证集和测试集划分好,也可以让SkillOpt自动完成划分。
准备数据
- :运行训练脚本,指定配置文件、教师模型与学生模型,开始迭代优化技能文档。
启动训练
- :训练完成后,在输出目录中获取最终生成的
获取产物
best_skill.md技能文档及各轮迭代快照。 - :直接将
部署使用
best_skill.md的内容嵌入目标Agent的系统提示词中即可生效,无额外推理开销。
SkillOpt的核心优势
- :告别“写文档→运行→凭感觉改”的试错循环,提供可量化、可复现的技能提升路径。
系统性优化
- :在6个基准、7个目标模型、3种执行工具链的52个评估单元中,全部取得最佳或并列最佳。
全场景领先
- :GPT-5.5平均提升+23.5个百分点;ALFWorld上GPT-5.4-mini从70.9%提升到85.8%。
显著性能提升
- :同一份
一次训练,到处部署
best_skill.md可跨模型规模、跨Agent工具链、跨相近任务复用。
SkillOpt的项目地址
- :https://microsoft.github.io/SkillOpt/
项目官网
- :https://github.com/microsoft/SkillOpt
GitHub仓库
SkillOpt的同类竞品对比
| 维度 | SkillOpt | TextGrad | GEPA | Trace2Skill |
|---|---|---|---|---|
优化对象 |
单一 skill.md 文档 | 文本提示 | 文本提示 | 从轨迹提取规则 |
训练纪律 |
类深度学习(epoch、batch、lr、验证门) | 基于梯度的文本优化 | 进化算法 | 轨迹归纳 |
编辑控制 |
有界编辑预算 + 拒绝缓冲区 | 无显式预算控制 | 变异选择 | 无迭代优化 |
验证机制 |
严格 held-out 验证门 | 无显式验证门 | 无 | 无 |
跨模型迁移 |
原生支持 | 有限 | 有限 | 有限 |
部署开销 |
零(纯 Markdown) | 低 | 低 | 低 |
SkillOpt的应用场景
- :为已有Agent系统化打磨
Agent 技能调优
skill.md,替代凭经验反复试错的手动调优。 - :在强模型上训练技能文档,直接部署到弱模型或不同工具链,降低多模型适配成本。
多模型技能复用
- :在SearchQA、SpreadsheetBench、OfficeQA、DocVQA、LiveMath、ALFWorld等任务上持续刷新性能上限。
基准测试突破
- :结合SkillOpt-Sleep预览版,在夜间自动回顾会话、复现高频任务并固化验证通过的技能。
本地编码 Agent 自进化