Hermes Agent:深度技术剖析报告
Hermes Agent,一个由Nous Research在2026年2月底开源发布的自主AI智能体,最近在圈子里热度挺高。它用MIT许可证,核心是用Python写成的。有趣的是,它诞生的初衷是为了解决一个被其创造者称为“AI失忆症”的麻烦——也就是大语言模型驱动的助手,每次对话结束就忘得一干二净。
那么,它到底靠什么来解决这个问题?核心创新在于一个叫作
闭环学习回路
17,400
背景:Nous Research 与 Hermes 模型家族
开发团队
Nous Research这家实验室,主攻大语言模型的
后训练
模型技术栈
先说说模型技术栈,这能帮我们更好地理解整套体系。
Hermes 3
3.9亿tokens
Hermes 4
- :模型可以在标准回复和显式的思维链之间自由切换,思维链长度能扩展到16,000 tokens。你可以选择快速模式或者深思模式,模型会根据选择自适应调整,不会对所有问题都搞长篇大论。
混合推理
- :一个基于有向无环图的合成数据生成管线。这个管线里的每个节点都会进行结构到结构的转换,比如把维基百科文章变成问答对或者说唱歌曲。一个LLM评判器会对输出进行评估,不断迭代直到样本通过质量门槛。规模提升相当惊人:Hermes 3用了100万样本、12亿tokens;而Hermes 4用了大约
DataForge
——样本量涨了5倍,token量直接翻了50倍。500万样本、600亿tokens
Hermes 4的技术报告通过实证验证了混合推理的有效性:在AIME'24数学基准上,过度冗长推理减少了
78.4%
4.7%
96.3%
特别值得一提的是
Hermes 4.3(36B)
模型无关
Atropos:强化学习训练框架
所有Hermes模型都是通过
Atropos
Rollout处理器
拒绝采样
同一个Atropos集成也出现在Agent运行时中
核心架构
ReAct 循环基础
Hermes Agent实现了经典的
ReAct
真正让它与众不同的,并不是这个循环本身有什么魔法,而是围绕它精心设计的五层记忆系统、技能架构和用户建模。
五层记忆系统
Hermes Agent维护了五个截然不同的持久化层,从
临时性
永久性
- :就是当前会话的标准Transformer上下文。重启后不留痕迹,跟所有传统聊天机器人依赖的基线状态一样——说穿了就是
短期推理内存
的。无状态
- :`MEMORY.md`(大小限制约
持久化内存文件
)和`USER.md`(大小限制约2,200个字符
)是跨会话存活的扁平文件。当文件写满时,智能体会进行1,375个字符
——合并或丢弃低价值的信息,而不是简单粗暴地把新信息丢掉。整合
- :放在`~/.hermes/skills/`目录下的`SKILL.md`文件里,专门捕获复杂任务的
技能记忆 / 程序性记忆
。这跟标准RAG那种零散检索不一样,Skills能保持对分步解决方案
的连贯程序性理解。当智能体完成下面这些任务时,它会完整工作流
技能:涉及自主创建
的任务;从错误中恢复的任务;收到用户修正反馈的任务;或者发现了非平凡工作流的任务。5次以上工具调用
- :这是与Plastic Labs的Honcho用户建模库的集成。Honcho是
Honcho 辩证式用户建模
的:在会话进行和消息记录的过程中,后台推理模型会推导出关于用户心理的结构化结论——比如偏好、沟通风格、领域专业知识、工作模式,而且异步运行
。核心洞察就一句话:完全不存储原始对话转录
。比如存储“用户偏好TypeScript”,而不是“用户在消息#47里说他偏好TypeScript”。Honcho提供了5个工具:`honcho_profile`(读取/更新对等卡片)、`honcho_search`(语义搜索)、`honcho_context`(会话上下文)、`honcho_reasoning`(LLM合成推理)、`honcho_conclude`(创建/删除结论)。上下文检索延迟大约存储结论,而非对话
。200毫秒
- :一个基于SQLite的可搜索数据库,涵盖了所有历史交互记录,还有LLM驱动的摘要能力。这让跨会话回忆(比如“我上周二做了什么?”)成为可能——提供了向量检索或扁平文件都搞不定的
FTS5 全文搜索
。时间维度上下文
Honcho 双端对等架构
Honcho把用户和AI智能体看成是具有持久状态的
对等端点
| 工具 | 功能 |
|---|---|
honcho_profile | 快速对等卡片检索(无LLM调用),返回精选的关键事实 |
honcho_search | 语义记忆搜索,返回按相关性排序的原始摘录 |
honcho_context | 由Honcho的LLM驱动的辩证式问答,从历史中综合答案 |
honcho_conclude | 当用户陈述偏好或更正时,将持久化事实写入Honcho |
用户和智能体的表征在会话启动时就注入系统提示词,让Hermes既清楚对话对象是谁,也明白自己知道什么。
闭环学习回路
闭环学习回路把所有记忆层串联成一个复合循环:
- Agent完成任务 → 写入`SKILL.md`
- 后续相似任务 → 向量存储检索技能 → Agent从经过验证的脚手架起步,而不是从零开始
- Honcho观察用户 → 推导偏好事实 → 后续会话实现预个性化
- FTS5索引所有交互 → 跨会话时间线召回可用
- 周期性内部提示促使Agent在上下文占满前持久化高价值知识
实战数据(来自Nous Research黑客松)表明:
技能辅助任务相比冷启动执行,Token消耗能降低30%到85%
完成速度加快了40%
SOUL.md 人格栈
Hermes Agent通过三层人格系统,把“它了解你的内容”和“它如何与你对话”分离开了:
~/.hermes/SOUL.md:全局人格文件,每次会话启动时逐字注入系统提示词。它控制所有交互中的沟通语调、直接程度和风格——如果某种行为应该在所有部署中保持一致,就该放在这里。- :临时会话级模式切换,预设了“technical”、“creative”和“teacher”等模式。
人格覆盖
- :按工作目录限定的项目级约定。
AGENTS.md
执行基础设施
六种终端后端
| 后端 | 适用场景 | 特性 |
|---|---|---|
| Local | 开发、个人使用 | 直接系统执行,无隔离 |
| Docker | 生产环境、安全敏感 | 只读根文件系统、能力降级、PID限制、命名空间隔离 |
| SSH | 远程服务器 | 跨会话持久化环境 |
| Daytona | 云端开发 | 无服务器开发环境 |
| Singularity | HPC、研究集群 | 面向计算密集型工作负载的容器编排 |
| Modal | 无服务器生产 | 空闲时休眠,按需唤醒,会话间近乎零成本 |
配置只需要在`~/.hermes/config.yaml`里改一行——切换后端时Agent代码不需要任何改动。
多平台消息网关
模型Provider灵活性
Provider无关
有序回退Provider链
MCP 集成(双向)
Hermes Agent中的
MCP
双向
- :启动时连接任何已配置的MCP服务器(本地stdio或远程HTTP),自动发现工具,并将其注册为一级原生工具。自动重连采用
MCP Client模式
(1s → 2s → 4s → 8s → 16s,最多5次尝试)。指数退避
- (v0.6.0新增):通过`hermes mcp serve`,把Hermes的对话和会话暴露给任何MCP兼容客户端——Claude Desktop、Cursor、VS Code。客户端可以通过标准协议浏览对话、读取消息、跨会话搜索以及管理附件。
MCP Server模式
agentskills.io 标准
标准定义
技能遵循
agentskills.io
5,000 tokens以下
渐进式披露
跨框架可移植性
技能系统最厉害的地方,或许是它的
可移植性
超过11款工具
条件激活
技能还能根据当前会话中的工具可用性,通过前置元数据字段自动显示或隐藏自己:
fallback_for_toolsets:当高级工具可用时技能隐藏,只在不可用时作为免费/本地替代方案显示。requires_toolsets:除非特定工具集存在,否则技能隐藏。
这实现了一种
优雅降级
研究与训练基础设施
Hermes Agent不仅是一个终端用户工具,更是未来模型训练的
数据生成引擎
- :运行并行工作节点并带有检查点,以规模化收集Agent交互数据。
批量轨迹生成
- :用于训练Hermes模型的同一个Atropos框架已嵌入运行时。运行复杂循环和多步RPC任务的Agent,直接从实际使用中生成强化学习训练数据。
Atropos RL集成
- :长时域Agent基准测试集成,用于系统性评估。
YCBench环境
- :轨迹压缩并导出为ShareGPT格式,用于监督微调管线。
ShareGPT导出
这形成了一个
飞轮
多智能体与子智能体架构
Hermes Agent把
子智能体委派
零上下文成本的并行管线
竞争格局
横向逐项对比
| 维度 | Hermes Agent | Claude Code | CrewAI | LangGraph | AutoGen |
|---|---|---|---|---|---|
架构 | 单一持久化智能体 | IDE嵌入式CLI | 多角色智能体 | 状态机图 | 对话式多智能体 |
记忆机制 | 5级持久化存储 | 基于会话 | 基础任务记忆 | 有限 | 有限 |
技能自我进化 | 自主创建+精炼 | agentskills.io(手动) | 无 | 无 | 无 |
GitHub星标数 | ~17,400 | 不适用(专有) | ~47,600 | 极高 | 高 |
开发语言 | Python | TypeScript | Python | Python | Python |
本地推理支持 | Ollama, vLLM, llama.cpp | 不支持 | 不支持 | 不支持 | 不支持 |
消息平台集成 | 8(统一网关) | 不适用 | 不支持 | 不支持 | 不支持 |
多智能体协作 | 子智能体委派 | 不支持 | 核心特性 | 核心特性 | 核心特性 |
开源协议 | MIT | 专有 | MIT | MIT | MIT |
资金背景 | 社区 / Nous Research | Anthropic | $1800万(Insight Partners, Andrew Ng) | LangChain Inc | Microsoft |
Hermes 的制胜之处
如果问Hermes Agent最打动人的点是什么,那一定是它的
复合价值主张
单个高杠杆操作员
确实没有能直接对标的对手
有一个经常被引用的基准测试很有说服力:同一个底层模型(Opus 4.5),仅仅因为
智能体脚手架
17道题的得分差距
架构比模型选型更重要
Hermes 的不足之处
- :Hermes本质上是带有子智能体委派的
多智能体编排
。它缺乏CrewAI那种基于角色的团队结构,也没有LangGraph的状态机控制。对于需要高度定制化协调智能体团队的用例,Hermes可能不是最佳选择。单智能体框架
- :截至2026年3月,还没有企业版、商业SLA、访问控制。而CrewAI有$1800万融资和企业合同;LangGraph有LangSmith可观测性和生产级检查点。
企业就绪度
- :需要Python运行时、独立的模型服务器、配置文件管理以及跨多个Provider的API Key管理。有些单二进制替代方案在这方面就省心得多。
设置复杂度
- :社区反馈比较一致,文档相对于框架的复杂度和快速发布节奏来说,还是有些薄弱。
文档缺口
批判性分析:skeptics 的观点
当然,任何技术方案都不可能是全然的掌声。一份详细的技术审查提出了几个实质性的质疑:
- :有审查者认为,Hermes所宣传的“技能创建”,本质上就是对Markdown文件进行
技能作为结构化提示注入
,然后在运行时注入上下文。这被描述为CRUD操作
。不过,渐进式披露的设计倒被称赞为真正的优秀工程实践。问题可能出在营销框架上,被认为有些过度延伸。“带有CRUD层的结构化提示注入,而非原生能力”
- :带边界限制的`MEMORY.md`和`USER.md`文件,其实跟Claude Code、OpenCode以及大多数带配置文件的工具用的是同一个思路。实现本身工程做得很扎实(原子写入、文件锁、注入扫描、字符预算),但把“伴你成长”作为一个亮点来宣传,在批评者看来,这不过是对持久化结构化笔记的一种营销包装。
记忆作为结构化笔记
- :在该审查发布时,每一款Hermes模型都是Llama的微调版。跟Hermes 4交互的感觉,跟Llama 3.1 405B几乎没区别——因为它本质上就是,只不过做了针对性的指令调优。模型无关的Agent运行时虽然缓解了这个问题,但觉得Llama推理风格受限的开发者,会在任何Hermes模型里都体验到这一点。
Llama微调依赖
- :Honcho的辩证式用户建模在架构上确实新颖,但
Honcho未经证实的宣称
来对比启用和停用Honcho时Agent的任务表现。理论上的心智模型用户画像,在100次会话标记处能提升任务完成率的说法,仍然是个有待验证的实证问题。至今没有发表的A/B测试或基准
- :Agent会无限累积记忆。没有衰减、剪枝或陈旧性检测。为旧工作流模式写的技能,以后跟新做法可能冲突;Honcho推导出的用户事实也可能过时。创造复合价值主张的记忆累积方式,同时也在制造复合一致性问题。
无遗忘机制
实用用例
根据实践者和社区文档的反馈,Hermes Agent在下面这些场景里回报最明显:
- :比如每日GitHub Issue分类、自动摘要发布到Slack、每周Changelog生成。FTS5会话召回加上技能复用,意味着Agent会跨会话不断改进自己的分类逻辑。
重复性开发工作流
- :跟那些关闭编辑器就丢了上下文的IDE嵌入式Copilot不同,Hermes作为后台进程持续运行,在整个开发生命周期中维护项目上下文。
持久化编码助手
- :带有并行工作节点的批量轨迹生成,让大规模研究任务可以在可控成本下进行,尤其是在空闲时几乎零成本的无服务器后端上。
研究与分析管线
- :Cron定时任务(备份、每周审计、报告生成)可以直接投递到任何已连接的消息平台。自然语言调度(比如“每周一上午9点,总结上周的提交”),配合投递到Telegram、Slack或电子邮件,非常方便。
自动化运维
- :从事LLM开发的团队,可以以轨迹捕获模式运行Hermes,从真实运维任务中生成高质量训练数据,直接输入Atropos强化学习管线。
模型训练数据生成
开放问题与未来轨迹
有几个未决问题,将决定Hermes Agent的长期发展走向:
- 十一款工具采用同一技能格式,确实很厉害。但标准化这东西,在压力下往往会碎片化——当供应商需要标准不支持的特性(比如认证、版本管理、依赖管理)时。`SKILL.md`格式的有意极简主义让采用变得容易,但也让演进变得困难。
agentskills.io 能否成为通用标准?
- 技能无限累积,旧的可能过时;冲突的技能(一个说“用yarn”,另一个基于用户偏好变更说“用pnpm”)会产生一致性问题。agentskills.io标准对技能生命周期管理或冲突解决,目前没有任何规定。
技能库能否在大规模下保持连贯?
- 理论论证很令人信服,但实证证据还付之阙如。需要在有/无Honcho的情况下,在30/60/90天使用节点上,对任务完成率进行独立评估。这要么会验证该架构的价值,要么会揭示其为一个精心构建但仍需实证的用户面向叙事。
Honcho用户建模能否在实际上改善结果?
- :Hermes 4使用的训练tokens是Hermes 3的150倍,全部是合成生成的。LLM评判器提供了质量过滤,但合成数据可能放大种子数据中的偏差。600亿tokens的DataForge生成数据,是否比3.9亿tokens的精心策划数据能训练出真正更好的Agent,答案还没完全落地——Hermes 4的基准测试确实令人鼓舞,但底层模型也同时发生了变化,变量控制并不纯粹。
DataForge的合成数据赌注
- :Hermes Agent当前的架构是为
企业采用路径
优化的,而不是那种具备访问控制、审计追踪、合规要求以及团队级Agent管理的企业部署。Nous Research是会朝着这些能力方向去构建,还是把这个空间让给资金更充足的竞争对手?这决定了Hermes是保持为一个高级用户工具,还是最终成为一个企业级平台。单个高杠杆操作员
结论
总的来说,Hermes Agent可以说是2026年发布的开源Agent框架中,
架构最具雄心者
持久化、复合增长的上下文,将比无状态算力更具价值
客观地评价,Hermes目前处于