首页 > 教程攻略 > ai资讯 >下一个AI较量场，为什么是Harness？

下一个AI较量场，为什么是Harness？

来源：互联网时间：2026-05-27 15:18:08

“Agents aren't hard; the Harness is hard.”

2026年2月，OpenAI工程师Ryan Lopopolo用这句话总结他刚完成的项目时，很多人还没完全理解其中的分量。他带领一个不到10人的小团队，花了5个月时间，让Codex写出了超过100万行代码，全程没有手动敲入一行。这套能让模型可靠工作的系统，被他称为“Harness Engineering”。

数据的变化很能说明问题。公开信息显示，Codex的周活跃用户在3月初大约是160万，但到了5月，这个数字已经突破了400万。

用户增长背后，除了模型本身的升级，Codex的Harness能力功不可没。有开发者做过测试，在完成相同任务时，Claude Code消耗的token量大约是Codex的3到4倍。这其中的差距，不全在模型本身，更与Harness的设计思路有关：Codex倾向于将任务拆解成多个子任务并行处理，每个子任务拥有独立的上下文，互不干扰。

如今，AI圈已经广泛认同“Agent = Model + Harness”这条公式。打个比方，如果把Agent看作一辆车，那么大模型就是提供动力的发动机。没有发动机，一切无从谈起。但一台裸发动机放在地上，你也无法驾驶它上路。

Harness，正是将“发动机”变成“整车”的那套系统工程。

风向的变化，从头部公司的动作也能窥见一斑。就在本月，DeepSeek发布了两个招聘岗位：Harness产品经理和Harness研发工程师。其资深研究员陈德里在社交媒体上透露，此举是为了组建专门的Harness团队，方向是“对标Claude Code，做DeepSeek Code Harness”。这家以模型层突破著称的公司，也把下一步的筹码押在了Harness上。

这背后是一个清晰的行业趋势：过去几年，模型能力是稀缺资源。但随着模型能力逐渐基础设施化，领先优势的“保质期”越来越短。模型之外的那一层Harness，正变得愈发重要。模型能力依然是基础，但Harness已经悄然成为AI竞争的下一个关键较量场。

一、Harness 洗牌行业三层结构

Harness开始反向优化模型，这只是它搅动当前整个AI行业结构的早期信号。

过去几年，AI产业被默认划分为三层结构：基础设施层、模型层和应用层。三层各司其职，价值分配相对清晰。但现在，Harness的出现正在影响这块“利益蛋糕”的分配。

最先感受到压力的是模型公司，它们的一部分“兑现权”正在被拿走。

过去，模型公司既负责训练模型，也决定模型如何被使用。无论是售卖API还是提供Playground，模型能力的价值兑现完全掌握在自己手中。模型强，定价就高，逻辑简单直接。

Harness的出现，让这个逻辑开始松动。在DeepSeek官方决定下场做Harness之前，开发者社区里一个名为“DeepSeek-TUI”的项目（被戏称为“DeepSeek版Claude Code”）备受欢迎，目前Stars数已超过3万。这揭示了一个关键事实：

同一个DeepSeek模型，运行在一个精心调校的代码Harness里，能发挥出更高的水准；而放在一个粗糙的“壳”里，其能力则会大打折扣。

模型本身没有变，但Harness决定了模型能力兑现的区间。模型公司辛苦训练出来的能力，如果拱手让给别人的Harness来承接，最终的定价权和用户体验定义权就可能旁落。这相当于自己成了供货商，少赚一层利润，而产品的好坏评价却由渠道说了算。

应用层的变化则发生得更隐蔽、更缓慢。

过去，不少应用公司的护城河在于“懂业务”。这种“懂”藏在产品经理的判断里、在多年打磨的交互细节里、在持续迭代的功能逻辑里。但现在，这些宝贵的业务知识开始被固化到Harness里。例如，SaaS巨头Salesforce把销售线索追踪的标准动作固化进去，Claude Code把代码评审的标准流程嵌进去。过去靠人的经验和理解来沉淀的东西，现在转移到了Harness这一层。

今年5月，老牌客服SaaS公司Intercom甚至直接更名为Fin，用自家AI Agent产品的名字替换了经营15年的品牌，开始围绕Harness重构整个公司。那些尚未开始重视Harness的应用公司，几年后回头看，可能会发现自己的业务护城河已被悄然掏空。一旦业务理解被Harness固化为可执行的Agent动作，这套理解的所有权，就跟着Harness走了，而不再仅仅跟着人走。

再往底层看，基础设施层也无法置身事外，因为算力市场的需求正在被反向定义。

过去，英伟达等公司的产品规划，很大程度上由大批量、稳定负载的模型训练需求驱动。但随着Harness的普及，Agent推理正成为算力市场的新主导力量。Agent具备长链路、多次调用、带工具、带记忆的特征，其推理负载呈现出长周期、不可预测等动态变化，需要不同的调度方式、内存架构和网络拓扑来支持。英伟达在2026年发布的Vera Rubin平台，就是专为智能体和大规模推理时代构建的。

Harness开始反过来影响芯片层的下一代产品形态。

这些变化叠加在一起，意味着AI产业链每一层的利益分配，都到了需要重新谈判的时刻。

二、Harness 天然长在场景里

Harness自身内部，也在发生深刻的分化。这种分化的根源，藏在Harness的一个根本性特点里。

Ryan Lopopolo的团队最初以为，只要把模型接入Harness就行，但后来发现，Harness并非一个即插即用的通用插件。它不是在实验室里一次设计好就能永远适用的，

必须在真实场景的失败中不断打磨和纠偏。

没有这种来自真实业务的持续反馈，Harness就会僵化，甚至失效。

这就是为什么说Harness天然长在场景里。而不同公司的业务场景千差万别，长出来的Harness自然也各不相同。

最先被验证、也最快能让Harness跑通的，是代码场景。Harness在代码场景里运行的每一条轨迹，都自带编译器给出的即时反馈信号，模型可以从中快速学习。这也是为什么Anthropic和OpenAI都不约而同地将Harness的第一战放在了代码领域。

但代码之外的世界要复杂得多，那里没有编译器这个“天然裁判”。在客服答疑、售后服务、风控判断等非代码场景里，没有一个自动化的客观标准能瞬间给出对错。离开了天然验证器，反馈信号要么依赖高成本、慢迭代的人工标注和复盘；要么就得依靠真实的业务结果反馈，这就要求Harness必须离业务足够近、运行时间足够久。

因此，未来能把Harness做好的玩家，一定是离真实业务反馈最近的那些。

长远来看，模型肯定会变得更强大。现在Harness需要专门工程来处理的一些问题，比如失败重试、上下文截断等，未来模型自己或许就能解决。但Harness中那些长在真实业务场景里、靠真实失败磨出来的部分，是模型再强也替代不了的。

模型变强会消解Harness的“工程层”，但消解不掉它的“场景层”。

事实上，拥有真实业务反馈闭环的玩家，已经开始在Harness上显示出优势。

例如，SaaS巨头Salesforce在CRM场景里沉淀了几十年的客户行为数据、销售漏斗反馈和服务工单记录。最新财年数据显示，其Agentforce产品已开始按“Agent对话”收费，

年度经常性收入（ARR）达到8亿美元，全年增速高达169%，累计交易超2.9万笔

，商业闭环已经跑通。

再看国内，目前日活领先的Agent产品腾讯WorkBuddy，也是早早押注Harness的玩家。从团队决定采用Claude模式到全量上线，只用了一个星期。能如此迅速，是因为WorkBuddy的Harness早已在腾讯内部搭建并打磨成熟。在面向市场之前，WorkBuddy已被内部2000多名员工使用。员工将会议纪要、跨部门协作、邮件草拟、文档生成等日常工作交给它，每一次使用和反馈都沉淀回Harness，使其越磨越精。

但这并不意味着各家公司在制造完全孤立、功能单一的Agent产品。而是指向一个未来：当AI模型要进入不同行业的业务深水区时，必须放入不同的Harness里去接受磨练。

这种磨练带来的分化，不仅是技术路线的选择差异，更是企业各自护城河的重塑。代码、协同办公、电商交易……不同的场景会长出完全不同的Harness。由于非代码场景的反馈信号极难跨行业复制，在一个场景里磨出来的Harness，无法直接搬到另一个场景里发力。那么，

拥有独特业务闭环和数据飞轮的玩家，将在自己的领域内建立起坚固的壁垒，外来者很难通过单纯堆叠算力或模型规模来打破这种领先。

三、标准化与智能体生态之争

当Agent在不同的Harness里磨练，长出了各自独特的规矩和行事风格后，一个新的问题出现了：它们最终需要“互相说话”，需要协作。

如果每家都采用私有协议、私有调用方式，整个Agent生态就会陷入类似PC时代软件互不兼容、互联网早期浏览器标准混乱的境地。为此，

接下来的Agent竞争，一定会从场景层的工程实践，上升到协议和标准层面的博弈，这是实现Agent大规模互通的基础。

Agent的标准化竞争其实早已开始。Anthropic在2024年底推出MCP（Model Context Protocol），将模型如何接入工具、获取上下文抽象成行业协议；Google则在2025年4月推出A2A（Agent2Agent）协议，旨在让多个Agent能够跨厂商协作。

背后的逻辑很清晰：当

Agent开始大规模互通，先入者形成的协议网络将成为后来者的进入门槛。

谁先把协议铺开、把生态接进来、把开发者留住，谁就在这一层拿到了类似移动互联网时代Android或iOS的“平台位”。

在国内，腾讯、阿里、字节等巨头也在积极跟进，避免在事实标准之外掉队。腾讯云智能体开发平台已全面支持MCP并上线了MCP插件广场；阿里百炼平台也已接入MCP；字节旗下的Trae和Coze同样在全面拥抱和兼容MCP。

协议的标准化，远不止解决互通问题本身。

它更决定了用户能否安全、信任地使用Agent，这最终关乎大规模商业化落地能否实现。

当Agent能代你下单、付款、签合同时，过程中的风险如何把控？今年5月，中国信通院联合腾讯、华&为、中兴、三大运营商和港中深共同发布的ATH协议，开始回应这些问题。该协议的核心思路是通过用户、Agent与服务的三方握手来确定权限边界，权限取交集，任何一方缺席都无法通过。

与协议之争同步发生的，还有Agent协作基础设施的建设。

当十个Agent需要协作时，光有标准协议还不够。多个Agent之间的调度、共享内存、权限边界、上下文路由、安全沙箱等问题，是协议层面无法完全解决的，需要一套底层基础设施来承接。

这一层基础设施最终会演化成什么形态，目前尚无共识。一种可能是被现有的终端（如手机、电脑操作系统）进一步集成，它们先掌握了屏幕、系统算力和硬件权限，再去调用Agent；另一种可能是演化出独立的智能体操作系统，类似于PC时代的Windows或移动时代的Android。

还有一种路径，是在已有的超级生态里自然生长出来。这也是目前外界对微信Agent最大的想象空间。腾讯高管已在多个公开场合提及微信Agent的方向。尽管尚未有正式产品形态，但试想，

14亿微信用户、450万小程序

，以及覆盖从支付到政务的庞大业务场景，本身就已构成一张现成的、极其复杂的Agent协作网络。Agent不需要从零“搭场子”，它接入的是已经跑通的真实业务，顺着这张现成的网往前走即可。

协议定义Agent之间如何互通，基础设施负责让Agent能稳定、高效地协作运行。可以看到，目前跑在前面的AI公司都在同时布局这两件事，为抢占Agent时代的制高点做准备。

结语

过去评估一家AI公司的竞争力，大家习惯看它的模型有多强、榜单分数有多高、投入的研发资金有多少。但这些指标，只能告诉你它有没有“发动机”，以及“发动机做得怎么样”。

现在，行业已经意识到这套评估方式不够全面。整车要安全可靠地上路，还需要一套精心设计的“整车系统”。当OpenAI、DeepSeek这些模型层的领头羊也开始大力补齐Agent所需的Harness能力时，其实已经揭示了AI竞争新的评估维度：Harness能不能反向优化和释放自家模型的潜力？有没有真实的业务场景提供持续反馈？能否在Agent标准化之争中卡住关键位置？有没有建立起承载多Agent协作的基础底座？

模型依然是基本盘，但随着Harness的影响力不断扩大，每一家AI公司接下来要回答的，都不再只是“我的模型有多强”，更要思考清楚：在Harness搅动的新AI格局里，自己究竟要站在哪里？

AI时代日新月异，Harness也许只是一个开始。再过几年，它可能会有新的名字，具体形态也可能会演化。但可以确定的是，在模型与具体业务场景之间，总需要有一个连接两者、嵌入业务、沉淀反馈的中间层。

这一层沉淀的，除了工程能力，还有对业务的深刻理解、宝贵的反馈数据，以及一家公司与真实用户之间日复一日的相互校准。目前来看，这件事没有捷径，只能在足够长的时间里慢慢沉淀，在足够大的真实业务中反复磨练。

下一个AI较量场，为什么是Harness？

Harness，正是将“发动机”变成“整车”的那套系统工程。

一、Harness 洗牌行业三层结构

一、Harness 洗牌行业三层结构

同一个DeepSeek模型，运行在一个精心调校的代码Harness里，能发挥出更高的水准；而放在一个粗糙的“壳”里，其能力则会大打折扣。

应用层的变化则发生得更隐蔽、更缓慢。

再往底层看，基础设施层也无法置身事外，因为算力市场的需求正在被反向定义。

Harness开始反过来影响芯片层的下一代产品形态。

二、Harness 天然长在场景里

二、Harness 天然长在场景里

必须在真实场景的失败中不断打磨和纠偏。

因此，未来能把Harness做好的玩家，一定是离真实业务反馈最近的那些。

模型变强会消解Harness的“工程层”，但消解不掉它的“场景层”。

年度经常性收入（ARR）达到8亿美元，全年增速高达169%，累计交易超2.9万笔

拥有独特业务闭环和数据飞轮的玩家，将在自己的领域内建立起坚固的壁垒，外来者很难通过单纯堆叠算力或模型规模来打破这种领先。

三、标准化与智能体生态之争

三、标准化与智能体生态之争

接下来的Agent竞争，一定会从场景层的工程实践，上升到协议和标准层面的博弈，这是实现Agent大规模互通的基础。

Agent开始大规模互通，先入者形成的协议网络将成为后来者的进入门槛。

它更决定了用户能否安全、信任地使用Agent，这最终关乎大规模商业化落地能否实现。

与协议之争同步发生的，还有Agent协作基础设施的建设。

14亿微信用户、450万小程序

结语

结语

相关阅读

相关下载