首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

来源：互联网时间：2026-06-11 14:40:40

如今，AI 模型看上去越来越强了：棋类游戏能赢顶尖选手，在主流 benchmark 上不断刷新 SOTA。但为什么就是没法真正帮人类干活？

由加州大学伯克利分校牵头、联合 250 余位行业专家组成的研究团队，给出了这个问题的答案：“

问题不在 AI 本身，而在评估体系

。”现有常用基准，已经无法持续衡量在真实、长流程、具经济价值工作中的表现。

针对这个问题，研究团队提出了新的基准

Agents’ Last Exam（ALE）

。之所以叫“最后的考试”，一是针对

能力门槛

，二针对

难度前沿

。只有当前 AI agents 真的能通过这场考试，才算具备了持续完成真实专业工作的能力，benchmark 上的提升才更有价值。

这场考试的结果也很直接：主流模型虽然能在传统 benchmark 上拿高分，在 ALE 最难层级中，

平均完整通过率则是 2.6%

。目前，Agent 距离稳定完成复杂、长流程的专业任务，仍有不小差距。

图｜Agents’ Last Exam 涵盖了大量不同类型的专业任务和真实工作流程。

“最后一场考试”考什么？

Agents' Last Exam（ALE）

是一个由250余位行业专家共同开发的 AI Agent 评测基准，用来衡量 AI 在

长期、具有经济价值

的真实工作流程中的表现。

为了测试 AI 能不能像人一样在电脑上完成真实工作，研究团队

收集了 1490 个任务

，覆盖

制造、法律、医疗、视觉媒体

等多个领域。这些任务都来自真实从业者的日常工作：有的要求 AI 画出 3D 模型，有的则要它在达芬奇里完成绿幕抠像和视频合成。

图｜ALE 分类体系下 1490 个任务实例的分布情况

相比常见的问答或短流程基准，这类任务对 Agent 提出了更高的要求。研究团队把这类 Agent 称为

Generalist Computer-Use Agent（GCUA）

：它不仅要会操作界面，还得会跑命令行、处理文件、写代码、调用工具，完成一整套工作流程。

图｜典型的 GCUA 框架结构。

为了测试这些对象的真实能力，ALE 提供了一整套可以执行和评分的任务环境。具体执行时，任务脚本会负责加载任务、准备环境和最后评分，Agent 则根据任务描述自己

观察环境

、

选择动作

并

持续执行

。任务结束后，脚本会直接检查结果，

93.2% 的任务都能自动判分，无需人工打分

。

图｜任务构建流程。

考试成绩怎么样？

研究团队指出，如果只看最难一档的任务，当前表现最好的配置是 Codex + GPT-5.5，完整通过率也只有 8.6%；

研究团队给出的主流系统平均完整通过率则是 2.6%

。

研究团队列举了几个具体的失败案例。在音乐转谱任务中，需要提交总谱 PDF、MIDI 和界面截图，但 AI 只导出了 MIDI 文件，最终拿了 0 分。注塑仿真任务中，AI 在 Moldex3D 中完成了仿真并导出结果，但没能稳定提取关键数值，最终得分为

0.4762

。在绿幕合成任务中，AI 虽然导出了视频，但结果没有满足参考要求，因此同样得分

0 分

。

图｜ALE 的主要结果。

图｜实验分析概览。

研究团队随后对失败原因进行了分类。以

Claude Code + Opus 4.7

为例，

31%

属于理解问题，

47%

属于方法问题，

22%

属于执行问题，理解和方法问题合计约占八成。研究团队据此指出，当前系统的主要瓶颈在于

领域知识

，而不是

执行能力

。

研究团队还比较了模型和 agent 框架的影响。结果显示，

更换模型带来的结果差异，要明显大于更换 agent 框架。

固定 agent 框架、只更换模型时，整体通过率最高和最低之间相差

18 个百分点

；固定模型、只更换 agent 框架时，这个差距大约只有

5 到 6 个百分点

。模型选择带来的影响范围，大约是 agent 框架的三倍。

不足和未来方向

研究团队也指出，ALE 以 SOC 2018 为职业分类骨架，覆盖的主要是软件型、数字化的专业工作。现阶段，任务也主要运行在 Linux 或 Windows 虚拟机中。

此外，ALE 在不同领域上的覆盖也并不均衡。有些方向任务覆盖较多，有些方向则很少。比如，能源与核工程只有

4 个

任务实例，城市与空间规划有

5 个

，法律领域是

15 个。

公开集目前只占完整任务池的一部分。研究团队做过一次检验：在 Claude Code + Opus 4.7 上，公开子集和完整任务池在各领域通过率上的相关系数只有 0.89。

不过，研究团队认为， ALE 是一个

持续更新的基准

。未来，任务池会继续扩展到新的工作流和新的行业，目前保留在私有池中的任务，也会定期轮换进入公开集。

“Agent的最后一场考试”来了：最强模型得分率仅8.6%，Claude Code直接挂零

问题不在 AI 本身，而在评估体系

Agents’ Last Exam（ALE）

能力门槛

难度前沿

平均完整通过率则是 2.6%

“最后一场考试”考什么？

“最后一场考试”考什么？

Agents' Last Exam（ALE）

长期、具有经济价值

收集了 1490 个任务

制造、法律、医疗、视觉媒体

Generalist Computer-Use Agent（GCUA）

观察环境

选择动作

持续执行

93.2% 的任务都能自动判分，无需人工打分

考试成绩怎么样？

考试成绩怎么样？

研究团队给出的主流系统平均完整通过率则是 2.6%

0.4762

0 分

Claude Code + Opus 4.7

31%

47%

22%

领域知识

执行能力

更换模型带来的结果差异，要明显大于更换 agent 框架。

18 个百分点

5 到 6 个百分点

不足和未来方向

不足和未来方向

4 个

5 个

15 个。

持续更新的基准

相关阅读

相关下载