一文看懂AI Agent的13大概念:涵盖Harness、Scaffold、Tool和Skill等
AI Agent圈子有个挺尴尬的问题:大家明明在聊同一件事,用的却是不同的词;而同一个词,指的却是完全不同的东西。这种术语上的混乱,正在成为技术交流的隐性壁垒。
ICLR 2026结束后,Hugging Face的工程师Aritra Roy Gosthipaty在社交平台上戳中了这个痛点:“在Agent语境下,harness和scaffold到底是什么意思?我在ICLR听到过很多种解释,但始终不明白为什么没有收敛到一个统一的定义。”这条帖子很快引发了共鸣。随后,Hugging Face的两位工程师Sergio Paniego和Aritra联手发布了一篇博客,专门解读那些最容易被混用的概念。以下是对全文核心框架的梳理。

Model、Scaffolding、Harness:Agent的三层骨架
先把三个最容易搞混的概念掰开说清楚。
Model
Scaffolding
Harness
对于Scaffolding和Harness的区别,文章给了一句极其简洁的区分:Scaffolding是模型可感知的部分(提示词、工具定义、输出格式),Harness是驱动模型运行的部分(调用循环、工具执行、停止判断)。
所以,精确定义下,Agent由三层构成:
Agent = Model + Scaffolding + Harness

不过在日常讨论中,有一个更简化的说法:
Agent = Model + Harness
Agent这个词本身源自强化学习。在RL里,Agent就是一个函数:接收观察,返回动作。环境接收动作去执行,返还观察结果,循环继续。这个循环,就是今天所有LLM Agent的底层逻辑。
用编程Agent当例子最直观:系统提示词和工具描述是Scaffolding,真正完成调用模型、执行git diff、运行测试、判断何时停止那个循环的,是Harness。训练的时候,Harness还要并行跑成百上千个这样的循环,把结果喂回去更新模型权重。
Sergio和Aritra特别点出了一件事:当人们聊Claude Code、Codex、Cursor这些产品时,他们说的是“一个特定的Harness+一个特定的模型”,两者被一起设计、一起优化。两个产品就算底层用的是同一个模型,体感可以完全不同——因为它们的Harness做了不同选择。反过来,同一个Harness换一个更强的模型,体验也会变。模型、Harness、产品,三个东西,不是一回事。
在这个框架之上,还有一个更高的概念叫
Orchestrator
Context Engineering决定Agent看什么,Policy定义Agent的行为
Context Engineering(上下文工程)

它和Prompt Engineering的关键区别在于:不是一次性写好就完了。随着Agent运行,前几轮的输出会影响在后续调用中放入什么。Harness需要在整个运行过程中主动管理上下文——包括删什么、留什么、从哪里检索补充,不是写个prompt而已。
对于上下文工程,训练和推理的出错代价天差地别。训练时搞错上下文,模型学到错误的东西,代价是重新训练;推理时搞错,修改提示词重新开始即可。
记忆体系也被纳入了上下文工程的框架。短期记忆是单次运行中留在上下文窗口里的内容——对话历史、工具返回结果、之前的推理链。长期记忆跨会话持久化,存在外部,需要时检索回来注入上下文。两者由Harness在同一套上下文管理逻辑中统一调度。
Policy
Tool、Skills、Sub-agent层层递进
Agent的能力体系是按层级递进的。这三个词虽然容易被混用,但代表了三个层级。

Tool Use
Skills
Sub-agent
文章也坦率承认:Tool、Skills、Sub-agent之间的边界,在不同框架里不太一样。
训练Agent的四个关键词
如果切换到训练视角,还有四个概念是训练Agent过程的关键所在。
RL Environment
touch foo.txt这个动作,环境执行它、创建了文件,然后把更新后的文件列表作为反馈返回。

Trainer
Rollout
Reward
- :有标准答案,比如代码测试跑通了就是1,跑不通就是0。
可验证奖励
- :没有标准答案,需要人来打分或让另一个LLM来评判。
学习型奖励
- :整个任务做完才给一个总分。
稀疏奖励
- :任务过程中每一步都给一个分数。
密集奖励
结语:Agent爆火的时代,讲清楚基础概念尤为重要
这篇文章不是什么碘伏性研究,它是那种早就该有人做、但一直没人做的基础工作。Sergio和Aritra在文章中写道:“这篇文章的目标不是推行唯一正确的词汇,而是提供一个实用的思维模式。”当一个领域快速发展时,其术语的演变速度往往超过其共识的形成速度。
在Claude Code、Codex、Hermes Agent、Cursor等产品用各自的词说各自的事的时候,一份中立的术语手册的价值,就凸显出来了。