首页 > 教程攻略 > ai资讯 >从答题到做实验：SciAgentGym让大模型进入科学工作流

从答题到做实验：SciAgentGym让大模型进入科学工作流

来源：互联网时间：2026-07-02 13:02:05

说一个核心判断：科学智能体的未来，可能不在于它“知道”多少，而在于它“做到”什么。

这个判断，来自 DeepMind 联合创始人、诺贝尔化学奖得主 Demis Hassabis 一直以来的观点。他把 AI 看作推动知识前沿的关键工具——能处理复杂数据、挖掘隐藏模式，甚至参与更深层的科学探索。但问题是，当前的大模型真的能胜任这活儿吗？

要走向 Hassabis 设想的目标，光会答题可不够。科学智能体在真实场景里，得干这些事：检索数据库、调用专业软件、执行计算、分析结果，还得根据环境反馈不断修正方向。科学推理，远不止发生在语言空间里。它更发生在工具调用、环境反馈和错误恢复的循环中。

这就给评测提了新要求。评估一个科学智能体，不能只看它答得对不对，要看它在复杂工具环境里，能不能稳定、高效地完成多步任务。

正是出于这个背景，复旦大学 NLP 实验室推出了

SciAgentGym

——一个专为多步科学工具使用设计的智能体环境，用来评估模型在复杂科学工作流中的执行力、反馈处理能力和任务完成能力。

论文标题：SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
论文地址：https://arxiv.org/pdf/2602.12984
项目网站：https://sciagentgym.github.io/

SciAgentGym：为科学智能体搭建工作流环境

SciAgentGym 的核心价值，是给 Agent 提供了一个可交互、可执行、可反馈的科学环境。这个环境由四类基础设施组成：专业工具库、文件系统、科学数据库和 Python 解释器。模型在任务过程中，可以调用科学工具、执行代码、查询数据库，也能读取环境返回的结果、报错信息和中间文件。每个任务都拥有独立的工具注册、文件系统和执行历史，这意味模型确实进入了一个科学工作空间。

为了让环境承载复杂科学任务，设计上强调了三个原则。

第一个是

Type Safety

，即类型安全。科学工具之间不是随便连接的。一个工具可能输出分子式，另一个工具需要蛋白结构；一个工具返回矩阵，另一个只能接收三维向量。SciAgentGym 给工具定义了明确的输入输出类型，环境能检查调用是否合法，也能判断工具之间能否自然衔接。

第二个是

Reproducibility

，即可复现性。模型的每一次工具调用、每一个中间结果、每一次环境反馈，都会被记录成结构化轨迹。最终评测得到的，不只是一个答案，而是模型完成任务的完整过程。

第三个是

Extensibility

，即可扩展性。工具按学科和标准协议组织，方便接入新领域。论文中，团队把 RDKit、ASE、SciPy、BioPython、PyMatGen 这些成熟计算包封装成工具，再按计算、分析、可视化和查询等功能分类，并用自动化单元测试筛选质量。

简单说，SciAgentGym 的设计目标很明确：为科学智能体搭建一个能承载真实工作流的执行环境。在这个环境里，模型要理解工具依赖、管理中间状态、利用环境反馈，把多个步骤组织成一条连续的流程。

（图：SciAgentGym 总体框架。左侧为科学环境与工具系统，右侧展示 SciAgentBench 评测、Agent Interface 交互和 SciForge 训练流程。）

SciAgentBench：评测模型能否完成长程科学任务

环境搭好了，下一个关键问题就是：当前的大模型，在复杂科学工作流里到底行不行？

SciAgentBench

就是为这个目的设计的评测集。它包含 259 个任务、1,134 个子问题，覆盖物理、化学、材料科学和生命科学四个领域。这些任务都经过严格筛选：不能只靠模型记忆或常识回答，必须让模型在 SciAgentGym 环境里持续调用工具、读取反馈、逐步推进。

为了区分复杂度，任务被划分为三个层级。

L1

是基础任务，不超过 3 步，主要看模型能不能完成短工具调用流程。

L2

是中等复杂度，需要 4 到 7 步，这时模型得开始组合多个工具、管理中间状态。

L3

是长程任务，需要 8 步以上，更接近真实工作流。模型不但要规划步骤，还得处理反馈、修正错误、不偏离目标。

在整个 SciAgentBench 里，L2 和 L3 总共占了

79%

。重点很明显：看模型在长链条里能不能保持稳定。另外，约

65%

的任务包含多模态输入，比如分子结构图、光谱数据、相图和实验图像。这一点很贴近真实研究：科学家解决问题时，往往不是只看文字，而是同时理解图像、表格、数据和工具返回的中间结果。

评测指标用了两个：

Success Rate 和 Success Weighted by Path Length

。前者看模型是否成功完成整个任务；后者还考虑效率。如果模型反复试错、调用不必要工具，即使最后答对，效率得分也会低。科学智能体不光要出结果，还要以更直接、更快速的方式出结果。

（图：在 SciAgentBench 下的测试结果。）

实验结果显示，工具确实能帮上忙。总体看，模型接入工具后，平均成功率从

23.3%

提升到

28.3%

。这说明在真实科学任务里，外部工具依然是刚需。单靠模型内部知识，很难替代科学计算、数据库查询和专业软件的精确能力。

但更值得关注的是，一旦进入长流程任务，性能明显下降。以 GPT-5 为例，带工具时整体成功率为

41.3%

。但按难度细分：L1 达到

58.8%

，到 L3 就掉到

34.6%

。这可不是特例，几乎所有模型都这样。所有模型平均下来，L1 是

47.4%

，L3 只有

16.4%

。

这意味着，当前模型已经具备一定的工具使用能力，但稳定完成长程工作流，依然非常困难。短流程只需要几次正确决策，长流程则要连续完成多个环节：理解问题、选工具、设参数、读反馈、换格式、继续执行。任何一个环节出错，都可能影响全局。

（图：SciAgentBench 下的模型行为分析。进一步从工具调用效率、反馈利用能力和长程错误恢复三个角度分析。结果显示，瓶颈不在于“会不会调用工具”，而在于能否在多步执行中理解反馈、调整路线、持续推进。）

论文还发现了一个有意思的现象：工具调用次数多，不代表模型更会使用工具。有些模型频繁调用，成功率却不理想。原因很简单：它们没真正理解反馈，而是在报错后反复做相似操作，或机械地调参数。相比之下，一些更强的模型调用次数更少，但能更有效地利用中间结果，快速判断下一步。

这也揭示了一个关键能力：有效利用环境反馈。在真实科学工作流里，反馈承载着重要信息。报错可能显示输入格式不对、参数缺失，或工具选择不合适；中间结果也可能揭示当前路线是否有效。模型要是读不懂这些，就容易在长流程里反复试错，甚至陷入死循环。

结论很清晰：虽然大模型已具备一定能力，但距离稳定、可靠地完成真实科学工作流，还有明显差距。

SciForge：让模型从可执行轨迹中学习

既然评测出了差距，下一步就是怎么补上。论文提出的

SciForge

，就是构建面向科学工具使用的训练数据。

基本思路很直接：科学智能体要学习的，不只是最终答案，还包括完成任务的过程。一条真实工作流，往往包含多个环节：选工具、调用、读中间结果、理解反馈、出错时调整。围绕这一点，SciForge 从工具之间的输入输出关系出发，构造可能的工作流，并在 SciAgentGym 环境里实际运行。能执行并产生有效结果的轨迹，就保留下来作为训练数据。

这些轨迹不光包含顺利完成的流程，还有一部分错误与修正过程。工具调用失败、参数设置不当、输入格式不匹配……这些都会以环境反馈的形式出现在轨迹里。模型从这些数据里学到的，不仅是一条理想化的执行路径，更是如何根据反馈调整后续操作。

实验效果怎么样？基于 SciForge 数据训练后，

SciAgent-8B

在 SciAgentBench 上达到

30.1%

成功率，超过了更大规模的

Qwen3-VL-235B-Instruct

；

SciAgent-4B

也达到

25.2%

，相比基座模型有明显提升。

（图：SciForge 训练效果。随着轨迹数量增加，模型在工具增强任务中的表现持续提升；缺少错误恢复过程或使用非科学工具数据时，效果会受影响。）

这个结果说明，科学工具调用的过程数据，价值巨大。可执行轨迹给模型提供了关于工具依赖、数据精度、反馈利用等一系列经验，让它在训练中更接近真实科学任务的结构。

展望：下一步，AI 科学家

斯坦福研究者 Surya Ganguli 在谈到 AI 与科学发现时说过，AI 会推动新发现，而科学应用对严谨性的要求，也会反过来推动更好的 AI。放到科学智能体的语境里，这点尤其值得关注。真正进入科研场景，模型面对的是海量数据和无限开放的过程。面向开放式科学发现，让模型先在具体工作流里学会可靠执行，再逐步提升参与复杂研究的能力，可能是一条很有潜力的路。可以期待，未来的 AI 科学家会在这类交互中逐渐成形。

从答题到做实验：SciAgentGym让大模型进入科学工作流

SciAgentGym

SciAgentGym：为科学智能体搭建工作流环境

Type Safety

Reproducibility

Extensibility

SciAgentBench：评测模型能否完成长程科学任务

SciAgentBench

L1

L2

L3

79%

65%

Success Rate 和 Success Weighted by Path Length

23.3%

28.3%

41.3%

58.8%

34.6%

47.4%

16.4%

SciForge：让模型从可执行轨迹中学习

SciForge

SciAgent-8B

30.1%

Qwen3-VL-235B-Instruct

SciAgent-4B

25.2%

展望：下一步，AI 科学家

相关阅读

相关下载