首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >Agent Infra之战打响！腾讯云重做腾讯云

Agent Infra之战打响！腾讯云重做腾讯云

来源：互联网时间：2026-06-06 13:28:43

Agent时代来了，然后呢？

这两年，Agent已经从技术概念快速走向产业落地。大模型能力的持续提升，让Agent具备了任务理解、工具调用、自主规划和执行能力，客服、研发、办公、运营这些真实的生产场景里，已经开始出现它们的身影。

但问题也随之而来。当Agent真正进入生产环境，一个更深层次的矛盾开始浮现：今天的基础设施，压根儿就不是为Agent时代准备的。

过去十几年，企业IT基础设施的设计逻辑，始终围绕着人类用户和传统应用打转。无论是服务器资源调度、虚拟化架构、容器平台还是数据库，核心目标只有一个：支撑稳定、可预测的软件服务。

可Agent的到来，打破了这个格局。这是一种充满不可预测性的新型负载——它要操作设备、执行代码、访问数据，执行链路不确定，高并发是家常便饭，安全风险也如影随形。这对底层的计算、存储、网络、资源调度乃至Runtime系统，都构成了前所未有的挑战。

也正因如此，行业开始重新审视AI基础设施的定义。未来企业需要的，不光是更强大的模型，更是一套能够支撑Agent持续运行、自主协同和大规模扩展的“Agent-Ready Infrastructure”。越来越多的厂商正在围绕这一方向展开布局。Agent时代的竞争，正在从模型层，悄悄延伸到基础设施层。

面对这一趋势，腾讯给出了自己的答案。在今天举办的腾讯云AI产业应用大会上，腾讯系统性地展示了面向Agent时代的基础设施能力布局——从运行平台到底层资源体系，试图为企业构建一套真正适配AI Agent生产落地的新一代底座。

一、从云服务到Agent Runtime，企业级Agent Infra经历范式重构

Agent的工作负载，到底和传统的应用、服务有什么本质区别？

腾讯云存储总经理马文霜举了个例子。当你让Agent做一份“新能源车的概念报告”时，它可能会去浏览网页、下载安装包、编写代码、生成文件……整个执行链路充满了不确定性，而且需要独占环境。

与此同时，当Agent批量走入生产场景，高并发几乎是必然的，这会给基础设施带来巨大压力。而凭证管理、数据隔离这些技术，则是保障Agent可靠性和安全性的关键。

所以，要想真正实现Agent的规模化部署，一套符合其特性的新型基础设施，是绕不开的必选项。

为此，腾讯云已经打造了一套全新的Agent治理平台架构。腾讯云资深AI Infra架构师邢陪邻表示，其核心逻辑在于：把Agent当成一个“数字员工”来看待——它有岗位职责、汇报关系和权限边界，而不是一个简单的程序工具。

针对企业规模化部署Agent过程中常见的接入门槛高、组织管理复杂、协作记忆分散、成本难控制、安全审计要求高、技术框架不统一等痛点，腾讯云构建了覆盖“多Agent统一接入、多组织统一治理、多场景统一交付”的治理平台架构。

在这个架构的基础设施层中，计算（包括Runtime）、存储、网络和安全，个个都扮演着关键角色。

其中，Agent Runtime架构是Agent运行的核心技术之一。腾讯云高级产品经理、CNCF大使周鹏飞认为，Agent基础设施需要围绕Agent的特征来定义、设计和全面升级——比如高自主性，以及生命周期的不确定性。

腾讯云在Agent Runtime中整合了沙箱调度、身份认证、出站访问管理、全链路监控、凭证管理以及Agent Memory等能力，专门解决传统微服务架构下资源长期占用、Agent任务容易中断等顽疾。

这些技术让企业可以实现Agent的快速部署。但腾讯云计算高级产品经理、SkilHub主理人戴惠怡认为，用户真正需要的，不光是成功部署，而是Agent能稳定地“帮我做事”。

为满足这一需求，Agent需要专属的云底座来提供运行环境，同时依靠Skill生态来实现能力扩展。

云底座方面，腾讯云的Lighthouse轻量应用服务器面向开发者及泛大众，为Agent提供稳定、安全的云端运行环境，支持7×24小时持续运行，能有效降低部署和运维成本。

面向企业市场，腾讯云ClawPro与Lighthouse上百万级的OpenClaw用户环境同源同构，已经过大规模生产验证。它提供了面向企业的Agent管控平台，同样实现了开箱即用的零门槛接入。

在Skill生态方面，腾讯打造了SkillHub社区。目前该社区已收录7.8万个Skill，上线仅2个月，下载量就突破了3000万次。这些Skill将人类经验、工具调用、业务流程和实践经验，沉淀为Agent可以理解和复用的能力。

该社区对全球和本土的Skill资源进行了统一管理、安全审核和分发，让原本分散在个人和团队中的Skill资产真正流通起来，串联起Skill生产、发现、安装、复用和组织化管理的完整链条。

二、让Agent真正跑起来，需要什么样的底座？

腾讯云的Agent Runtime体系里包含了好几项关键技术，相关技术负责人也做了详细介绍。

首先是沙箱技术。Agent需要真正去操作设备、执行代码、访问数据——这种能力伴随着巨大的安全风险。对于企业来说，给Agent提供一个隔离、受控的环境，几乎是必须项。

Agent沙箱的实现方式很多样，有本地的，也有云端的。腾讯云选择的是云端沙箱路径。这个方案的优势在于可以实现存算分离、按任务隔离、暂停免费以及秒级唤醒。

针对Agent沙箱在真实生产环境中面临的冷启动慢、扩展上限受限、闲置成本高等问题，腾讯云提出了一整套工程化优化方案。

首先，通过内核层的优化（比如全栈锁优化）、资源池化、镜像按需加载与就近缓存，以及基于快照恢复的机制，他们将传统超过20秒的冷启动时间大幅压缩至60毫秒，实现了“即开即用”的运行体验。

在架构层面，腾讯云去除了对传统K8s控制面的强依赖，引入无单点依赖设计、多资源池和两级调度机制，显著提升了系统的并发能力与横向扩展上限，使得平台能够支撑百万级Agent规模的高并发运行。

在成本控制方面，系统通过VM快照实现了“自动休眠与恢复”机制。当Agent闲置时，系统会冻结其运行状态，只保留极低成本的存储计费；恢复时则可以做到毫秒级唤醒，从而有效降低了长期运行的成本。

这套系统支持从单一到大规模Agent的批量管理与全生命周期调度，展现出很强的可扩展性。

很多用户对Agent的期待是“越用越好用”“越来越懂我”。但要真正实现这一点，Agent需要一套好用、高性价比的记忆基础设施，来帮助用户积累智能资产。

腾讯云也关注到了这个问题。在Agent Memory方面，他们基于TencentDB构建了四层记忆架构，将Agent Memory从简单的数据存储，升级为可治理、可演进的智能资产体系。

这个架构自底向上分为四层：L0原始对话用于记录基础交互内容，L1原子事实负责提取关键结构化信息，L2场景模式用于归纳行为与交互规律，L3核心洞察则进一步沉淀为用户画像与业务级认知。

在此基础上，通过腾讯云自研模型驱动的抽取、压缩与符号化处理机制，既提升了记忆的可用性与可解释性，也大幅优化了系统性能与成本结构。举个例子：在长期记忆场景（PersonaMem）中，准确率从基线的48%提升到了76%，整体提升了约28.16%。

在Token消耗方面，短期记忆压缩与上下文卸载机制的引入，让Token整体节约率接近49.9%。与此同时，长任务成功率提升了30%，推理加速至2.53倍。这套记忆系统支持开源与云托管双形态部署，让记忆数据始终保持透明、可迁移与可治理，避免了形成数据黑盒。

给Agent配齐了“虚拟工位”（沙箱）和“工作笔记”（Memory）之后，如何评估、管理并优化其执行效果，对企业来说同样至关重要。

腾讯云日志服务高级产品架构师巢丰岩认为，Agent的可观测性与传统可观测性有本质区别。服务在线率、接口响应速度、基础资源消耗这些传统指标，根本无法准确反映Agent真正的任务完成度、Token消耗和工具调用的合理性。正因如此，企业在使用Agent时，常常会有一种“黑盒”的感觉。

为解决这个黑盒难题，腾讯云打造了一套面向生产级Agent的全域观测和分析能力。这套方案不仅能快速接入多种Agent形态，还能对上下文Session、Agent工作链路（Trace）、Skills、工具调用等数据进行统一建模，无需人工拼接。

在分析层面，该方案支持对多种指标进行全局分析，也支持单链路的具体分析——比如Token消耗分析、RAG分析、模型性能分析等。

这种观测与分析能力，能帮助企业及时定位Agent在执行过程中遇到的问题和高危操作。巢丰岩认为，这些信息最终会沉淀为企业的bad case数据集，形成数据飞轮，最终反哺Agent能力的提升。

三、存储与算力同步升级，复杂性留给基础设施

从治理体系，到运行环境，再到记忆系统，腾讯云已经配齐了Agent走向生产环境所需的核心组件。然而，随着Agent开始承担更复杂、更长期的任务，新的问题也随之出现：海量Agent的数据如何存储？高频推理带来的算力成本如何控制？这些问题最终都指向更底层的存储与算力基础设施。

从技术思路上来看，传统存储主要是围绕实现方式设计的，最终目标是构建一个可靠的存储系统。但Agent时代的存储系统，设计思路应该转变为“让存储被智能体高效使用”。这是因为过去云存储主要服务于应用系统，数据边界相对固定；而Agent存储既需要严格的数据隔离，也需要支持协同共享、动态扩缩容和长期记忆管理。

围绕这一趋势，腾讯云提出将存储用途与底层实现解耦，并通过统一的Volume抽象层来重构存储体系。他们将存储能力标准化为三类：专属Volume用于单Agent独占读写，共享Volume支持多Agent协作，制品Volume则以只读方式分发数据，保障系统资产安全。

在产品层面，腾讯云提供了AgentBucket和VectorBucket两项新能力。其中，AgentBucket采用了全新的Space架构，提供独立用户空间、原生POSIX文件语义及跨租户去重能力，解决了传统对象存储Bucket数量受限、隔离依赖业务逻辑等问题，为海量Agent的长期记忆和知识管理提供了有力支撑。

另一项VectorBucket则面向RAG场景打造，基于存算分离架构，支持十亿级高维向量存储和毫秒级检索。相比传统方案，其存储成本可降低约90%，同时实现了零运维部署，进一步降低了企业构建知识型Agent的门槛。

此外，腾讯还对MetaInsight多模态数据管理引擎做了升级。它能自动进行特征提取、目标检测、OCR识别和多模态对齐，支持Agent进行复杂推理和检索。

在基础设施层，Agent的出现让云厂商的定位发生了变化。如今，要让Agent跑起来，远不止是提供一台机器那么简单。底层涉及多个技术栈的协同，技术链路长，而且高度碎片化——任何一个环节处理不当，都可能导致Agent无法稳定运行，甚至带来数据泄露或权限失控的风险。

面对这些挑战，腾讯云所做的，是再往前迈一步：将原本分散且高度专业化的基础设施能力，转化为稳定、可复用、可规模化的统一平台能力。

以腾讯云的ClawPro为例。作为企业级的智能体统一管控台，它为用户提供了底层云服务的全自动化托管。企业管理员只需要在后台点击“开通”，系统就会一键智能拉起所有关联的基础云资源——云服务算力、存储、网络等，实现算存网一体。

Agent管理、审计、隔离、安全等多维度的功能也被整合进来。企业用户不需要懂太多技术细节，就能把Agent引入自己的业务流程中。

对于合规要求更高的政企客户，腾讯云还提供了ClawPro专有云版本，让企业可以在私有环境中部署Agent，实现对核心数据和模型的自主掌控。

腾讯云的这套产品方案，已经在不少真实场景中得到了验证。比如乐享科技，就将基于ClawPro的AI Agent接入了家庭机器人，快速补齐了机器人的感知和交互能力，提升了其在真实家庭场景中的可用性。

外贸数字化服务商富通天下，则将ClawPro集成进自身的私域CRM系统中，连接了外贸CRM与AI Agent能力。

这些案例有一个共性：ClawPro将原本分散在底层的基础设施能力进行了统一封装与平台化整合。企业要做的，只是结合自身的专有知识与业务理解，去发挥这套基础设施在其自身业务中的价值。

结语：腾讯云重做腾讯云

过去很长一段时间里，云计算要解决的关键问题是“应用如何运行”。而未来，云计算面临的新挑战，可能会演变为“Agent该如何工作”。

只提供CPU、存储和网络的云服务商，在Agent时代已经很难满足用户需求了。如何为这些“数字员工”提供工位、记忆、技能库、协作和管理系统，才是他们需要思考的关键问题。

从这个角度来看，腾讯云正在大刀阔斧地“重做腾讯云”。他们试图重新定义云基础设施的边界：云不再只是承载应用运行的资源池，而是成为Agent诞生、运行、协作、成长和治理的底座。过去云厂商交付的是计算资源，未来交付的，或许是一整套数字劳动力的生产环境。

Agent Infra之战打响！腾讯云重做腾讯云

一、从云服务到Agent Runtime，企业级Agent Infra经历范式重构

二、让Agent真正跑起来，需要什么样的底座？

三、存储与算力同步升级，复杂性留给基础设施

结语：腾讯云重做腾讯云

相关阅读

相关下载