Agent评估有套路,这才是正确姿势!
这是关于 Agent 评估的深度解析,没有之一。核心内容:1. Agent 常见的失败模式2. 评估 Agent 错误的核心要点3. 被忽视的评估约束——时间

今天我们来深入聊聊 Agent 的失败模式与评估方式。如果你对 Agent 的规划部分感兴趣,可以翻看之前的推送,内容很扎实。
评估的核心其实很简单——检测错误。一个 Agent 执行的任务越复杂,可能出错的地方就越多。除了大模型常见的错误,Agent 在规划、工具执行和效率方面还会冒出些独特的毛病。
想评估一个 Agent,你得先摸清它可能掉进哪些坑,再衡量每种坑出现的频率。
规划错误
规划本身就很难,翻车的姿势可谓五花八门。最常见的是工具使用错误。Agent 生成的计划可能带着一个或多个下面这些毛病:
用了无效的工具
比如,它生成一个计划说要调用
baidu_search,但实际可用的工具列表里根本没有这个。工具虽然对,但参数不对
例如,它用两个参数去调用
lbs_to_kg,而人家只接受一个参数lbs。工具和参数都对,但参数值搞错了
比方说,它调用
lbs_to_kg时给了参数lbs,明明应该是 120,它却填了 100。
另一种规划错误是
目标达成失败
在 Agent 评估中,有一个约束常常被忽略——
时间
还有一种有趣的规划错误,源于
反思错误
要评估 Agent 的规划错误,一个办法是建一个规划数据集,每个样本是一个 (任务, 工具列表) 对。对每个任务,让 Agent 生成 K 个计划,然后统计这些指标:
- 生成的所有计划里,有多少是有效的?
- 对给定任务,Agent 平均需要生成多少个计划才能得到一个有效的?
- 所有工具调用里,有多少是有效的?
- 调用无效工具的频率有多高?
- 使用无效参数调用有效工具的频率呢?
- 使用不正确参数值调用有效工具的频率呢?
分析 Agent 的输出,找找规律。它在哪些类型的任务上容易栽跟头?有没有什么假设能解释原因?模型经常在哪些工具上翻车?有些工具可能天生就对 Agent 不友好。你可以通过优化提示词、加更多示例或者微调来帮它提升。如果这些都不管用,那可能就得考虑换个更顺手工具了。
工具错误
工具错误指的是 Agent 明明选对了工具,但工具给出的结果是错的。一种常见情况是工具直接输出了错误的结果,比如图像描述工具给了一段瞎编的描述,或者 SQL 查询生成器生成了错误的查询。
如果 Agent 只生成高层计划,需要靠一个翻译模块把每个动作转成可执行命令,那么错误还可能发生在翻译环节。
工具错误跟具体工具有关,每个工具都得单独测。一定要把每个工具的调用和输出都打印出来,方便检查评估。如果有翻译模块,也得建个基准来测它。
要想发现因缺少工具导致的错误,得先搞明白到底该用什么工具。如果 Agent 老在某个领域翻车,那很可能是因为它缺了那个领域的工具。跟该领域的专家聊聊,看看他们通常用哪些工具,你就知道该补充什么了。
效率
一个 Agent 可能计划有效、工具也正确,但就是效率低。下面这些指标值得跟踪,以评估它的效率:
- Agent 平均需要几步才能完成任务?
- 完成任务的平均成本是多少?
- 每个操作通常花多长时间?有没有特别耗时或烧钱的操作?
你可以把这些指标跟你的基线比一比——基线可以是另一个 Agent,也可以是人类。不过,把 AI Agent 跟人比较时要注意:人和 AI 的操作模式差异很大。对人来说高效的方式,对 AI 可能很拉胯,反过来也一样。比如说,人一次只能逐页访问 100 个网页,效率很低;但 AI 可以同时访问所有网页,这简直是小菜一碟。