从答题到做实验:SciAgentGym让大模型进入科学工作流
说一个核心判断:科学智能体的未来,可能不在于它“知道”多少,而在于它“做到”什么。
这个判断,来自 DeepMind 联合创始人、诺贝尔化学奖得主 Demis Hassabis 一直以来的观点。他把 AI 看作推动知识前沿的关键工具——能处理复杂数据、挖掘隐藏模式,甚至参与更深层的科学探索。但问题是,当前的大模型真的能胜任这活儿吗?

要走向 Hassabis 设想的目标,光会答题可不够。科学智能体在真实场景里,得干这些事:检索数据库、调用专业软件、执行计算、分析结果,还得根据环境反馈不断修正方向。科学推理,远不止发生在语言空间里。它更发生在工具调用、环境反馈和错误恢复的循环中。
这就给评测提了新要求。评估一个科学智能体,不能只看它答得对不对,要看它在复杂工具环境里,能不能稳定、高效地完成多步任务。
正是出于这个背景,复旦大学 NLP 实验室推出了
SciAgentGym
- 论文标题:SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
- 论文地址:https://arxiv.org/pdf/2602.12984
- 项目网站:https://sciagentgym.github.io/
SciAgentGym:为科学智能体搭建工作流环境
SciAgentGym 的核心价值,是给 Agent 提供了一个可交互、可执行、可反馈的科学环境。这个环境由四类基础设施组成:专业工具库、文件系统、科学数据库和 Python 解释器。模型在任务过程中,可以调用科学工具、执行代码、查询数据库,也能读取环境返回的结果、报错信息和中间文件。每个任务都拥有独立的工具注册、文件系统和执行历史,这意味模型确实进入了一个科学工作空间。
为了让环境承载复杂科学任务,设计上强调了三个原则。
第一个是
Type Safety
第二个是
Reproducibility
第三个是
Extensibility
简单说,SciAgentGym 的设计目标很明确:为科学智能体搭建一个能承载真实工作流的执行环境。在这个环境里,模型要理解工具依赖、管理中间状态、利用环境反馈,把多个步骤组织成一条连续的流程。
(图:SciAgentGym 总体框架。左侧为科学环境与工具系统,右侧展示 SciAgentBench 评测、Agent Interface 交互和 SciForge 训练流程。)
SciAgentBench:评测模型能否完成长程科学任务
环境搭好了,下一个关键问题就是:当前的大模型,在复杂科学工作流里到底行不行?
SciAgentBench
为了区分复杂度,任务被划分为三个层级。
L1
L2
L3
在整个 SciAgentBench 里,L2 和 L3 总共占了
79%
65%
评测指标用了两个:
Success Rate 和 Success Weighted by Path Length
(图:在 SciAgentBench 下的测试结果。)
实验结果显示,工具确实能帮上忙。总体看,模型接入工具后,平均成功率从
23.3%
28.3%
但更值得关注的是,一旦进入长流程任务,性能明显下降。以 GPT-5 为例,带工具时整体成功率为
41.3%
58.8%
34.6%
47.4%
16.4%
这意味着,当前模型已经具备一定的工具使用能力,但稳定完成长程工作流,依然非常困难。短流程只需要几次正确决策,长流程则要连续完成多个环节:理解问题、选工具、设参数、读反馈、换格式、继续执行。任何一个环节出错,都可能影响全局。
(图:SciAgentBench 下的模型行为分析。进一步从工具调用效率、反馈利用能力和长程错误恢复三个角度分析。结果显示,瓶颈不在于“会不会调用工具”,而在于能否在多步执行中理解反馈、调整路线、持续推进。)
论文还发现了一个有意思的现象:工具调用次数多,不代表模型更会使用工具。有些模型频繁调用,成功率却不理想。原因很简单:它们没真正理解反馈,而是在报错后反复做相似操作,或机械地调参数。相比之下,一些更强的模型调用次数更少,但能更有效地利用中间结果,快速判断下一步。
这也揭示了一个关键能力:有效利用环境反馈。在真实科学工作流里,反馈承载着重要信息。报错可能显示输入格式不对、参数缺失,或工具选择不合适;中间结果也可能揭示当前路线是否有效。模型要是读不懂这些,就容易在长流程里反复试错,甚至陷入死循环。
结论很清晰:虽然大模型已具备一定能力,但距离稳定、可靠地完成真实科学工作流,还有明显差距。
SciForge:让模型从可执行轨迹中学习
既然评测出了差距,下一步就是怎么补上。论文提出的
SciForge
基本思路很直接:科学智能体要学习的,不只是最终答案,还包括完成任务的过程。一条真实工作流,往往包含多个环节:选工具、调用、读中间结果、理解反馈、出错时调整。围绕这一点,SciForge 从工具之间的输入输出关系出发,构造可能的工作流,并在 SciAgentGym 环境里实际运行。能执行并产生有效结果的轨迹,就保留下来作为训练数据。
这些轨迹不光包含顺利完成的流程,还有一部分错误与修正过程。工具调用失败、参数设置不当、输入格式不匹配……这些都会以环境反馈的形式出现在轨迹里。模型从这些数据里学到的,不仅是一条理想化的执行路径,更是如何根据反馈调整后续操作。
实验效果怎么样?基于 SciForge 数据训练后,
SciAgent-8B
30.1%
Qwen3-VL-235B-Instruct
SciAgent-4B
25.2%
(图:SciForge 训练效果。随着轨迹数量增加,模型在工具增强任务中的表现持续提升;缺少错误恢复过程或使用非科学工具数据时,效果会受影响。)
这个结果说明,科学工具调用的过程数据,价值巨大。可执行轨迹给模型提供了关于工具依赖、数据精度、反馈利用等一系列经验,让它在训练中更接近真实科学任务的结构。
展望:下一步,AI 科学家
斯坦福研究者 Surya Ganguli 在谈到 AI 与科学发现时说过,AI 会推动新发现,而科学应用对严谨性的要求,也会反过来推动更好的 AI。放到科学智能体的语境里,这点尤其值得关注。真正进入科研场景,模型面对的是海量数据和无限开放的过程。面向开放式科学发现,让模型先在具体工作流里学会可靠执行,再逐步提升参与复杂研究的能力,可能是一条很有潜力的路。可以期待,未来的 AI 科学家会在这类交互中逐渐成形。