Agent评估有套路，这才是正确姿势！

来源：互联网时间：2026-06-16 14:22:58

这是关于 Agent 评估的深度解析，没有之一。
核心内容：
1. Agent 常见的失败模式
2. 评估 Agent 错误的核心要点
3. 被忽视的评估约束——时间

Agent评估有套路，这才是正确姿势！

今天我们来深入聊聊 Agent 的失败模式与评估方式。如果你对 Agent 的规划部分感兴趣，可以翻看之前的推送，内容很扎实。

评估的核心其实很简单——检测错误。一个 Agent 执行的任务越复杂，可能出错的地方就越多。除了大模型常见的错误，Agent 在规划、工具执行和效率方面还会冒出些独特的毛病。

想评估一个 Agent，你得先摸清它可能掉进哪些坑，再衡量每种坑出现的频率。

规划错误

规划本身就很难，翻车的姿势可谓五花八门。最常见的是工具使用错误。Agent 生成的计划可能带着一个或多个下面这些毛病：

用了无效的工具
比如，它生成一个计划说要调用 baidu_search，但实际可用的工具列表里根本没有这个。
工具虽然对，但参数不对
例如，它用两个参数去调用 lbs_to_kg，而人家只接受一个参数 lbs。
工具和参数都对，但参数值搞错了
比方说，它调用 lbs_to_kg 时给了参数 lbs，明明应该是 120，它却填了 100。

另一种规划错误是

目标达成失败

：Agent 最终没实现既定目标。可能是计划本身就不对路，或者虽然解决了问题，却没有遵守必要的约束。举个例子，你让 Agent 规划一次从上海到北京、预算 5000 元的两周旅行。它可能给你搞了个从北京到广东的行程，或者弄了个预算远超 5000 元的两周方案。

在 Agent 评估中，有一个约束常常被忽略——

时间

。很多场合下，Agent 花多长时间不是关键，你可以把任务丢给它，等它慢慢跑完就行。但在另一些情况下，Agent 的价值会随时间流逝而缩水。比如，你让它准备一份拨款申请，结果它在截止日期之后才完成，那这东西就没什么用了。

还有一种有趣的规划错误，源于

反思错误

：Agent 自以为任务已经完成，实际上根本没有。比如说，你让 Agent 把 50 个人分配到 30 个酒店房间，它只分配了 40 人，然后坚称搞定了。

要评估 Agent 的规划错误，一个办法是建一个规划数据集，每个样本是一个 (任务, 工具列表) 对。对每个任务，让 Agent 生成 K 个计划，然后统计这些指标：

生成的所有计划里，有多少是有效的？
对给定任务，Agent 平均需要生成多少个计划才能得到一个有效的？
所有工具调用里，有多少是有效的？
调用无效工具的频率有多高？
使用无效参数调用有效工具的频率呢？
使用不正确参数值调用有效工具的频率呢？

分析 Agent 的输出，找找规律。它在哪些类型的任务上容易栽跟头？有没有什么假设能解释原因？模型经常在哪些工具上翻车？有些工具可能天生就对 Agent 不友好。你可以通过优化提示词、加更多示例或者微调来帮它提升。如果这些都不管用，那可能就得考虑换个更顺手工具了。

工具错误

工具错误指的是 Agent 明明选对了工具，但工具给出的结果是错的。一种常见情况是工具直接输出了错误的结果，比如图像描述工具给了一段瞎编的描述，或者 SQL 查询生成器生成了错误的查询。

如果 Agent 只生成高层计划，需要靠一个翻译模块把每个动作转成可执行命令，那么错误还可能发生在翻译环节。

工具错误跟具体工具有关，每个工具都得单独测。一定要把每个工具的调用和输出都打印出来，方便检查评估。如果有翻译模块，也得建个基准来测它。

要想发现因缺少工具导致的错误，得先搞明白到底该用什么工具。如果 Agent 老在某个领域翻车，那很可能是因为它缺了那个领域的工具。跟该领域的专家聊聊，看看他们通常用哪些工具，你就知道该补充什么了。

效率

一个 Agent 可能计划有效、工具也正确，但就是效率低。下面这些指标值得跟踪，以评估它的效率：

Agent 平均需要几步才能完成任务？
完成任务的平均成本是多少？
每个操作通常花多长时间？有没有特别耗时或烧钱的操作？

你可以把这些指标跟你的基线比一比——基线可以是另一个 Agent，也可以是人类。不过，把 AI Agent 跟人比较时要注意：人和 AI 的操作模式差异很大。对人来说高效的方式，对 AI 可能很拉胯，反过来也一样。比如说，人一次只能逐页访问 100 个网页，效率很低；但 AI 可以同时访问所有网页，这简直是小菜一碟。

Agent评估有套路，这才是正确姿势！

规划错误

用了无效的工具

工具虽然对，但参数不对

工具和参数都对，但参数值搞错了

目标达成失败

时间

反思错误

工具错误

效率

相关阅读

相关下载