首页 > 教程攻略 > ai教程 >对话清华大学张亚勤：智能体是大模型时代的APP

对话清华大学张亚勤：智能体是大模型时代的APP

来源：互联网时间：2026-06-24 07:16:06

2025年，大模型竞赛进入第三个年头。从国家到产业，大家都逐渐明白了一件事：这是一场拉力赛，人才竞争才是真正的胜负手。一个技术大咖的动向，就能带动数亿元的资金流动。

微软亚洲研究院，被外界称为中国智能产业的“黄埔军校”。而张亚勤，作为这所学院的初代“掌门人”，是人才与技术浪潮的重要开启者。从科学家到企业家，再到清华教授，他的身份转变，本身就是观察时代切面的一面镜子。

1998年，张亚勤回国参与创建微软中国研究院。2001年，研究院升级为微软亚洲研究院，他担任首届院长。从那以后，这家机构就像一台人才孵化器，持续不断地为中国互联网和AI产业注入新鲜血液。王坚、张宏江、林斌、汤晓鸥——这些在产业界和科技界举足轻重的名字，都曾在这里留下过足迹。

张亚勤在微软任职长达16年，曾任微软全球副总裁和微软中国董事长。2014年，他加入百度担任总裁，直到2019年退休。当时，雷军专门发了条微博：“祝贺张亚勤，祝贺百度，欢迎更多的跨国公司精英加入国内企业。”这背后，是当时整个产业对高端技术人才回归的期待。

说张亚勤亲历了中国互联网和AI发展的全过程，一点不为过。早在2015年，他就在媒体上首提“AI+”。当时他就坚信，人工智能是未来40年、50年的主流技术。

退休后，张亚勤重返学术界，一手筹建了清华大学智能产业研究院（AIR）。这支机构的使命，就是用人工智能技术赋能产业升级、推动社会进步。

近期，张亚勤出版了新作《智能涌现：AI时代的变革与思索》。姚期智、雷军、李开复都写下了推荐语。雷军说，这本书里有很多内容，涉及已然成势或即将成势的契机——比如物理智能与数字智能、生物智能相互融合的创业周期，以及自动驾驶重构全球汽车产业的趋势。

书里有个判断很关键：AI给个人消费者带来的价值提升，可能是渐进的、逐步积累的；但给企业乃至行业带来的价值改变，则可能是高效的、迅速碘伏的。

眼下，智能体成了AI价值提升的最前沿方向。张亚勤判断：“现在智能体还处在一个很初步的阶段。市场上大家都在说智能体，其实大部分可能还不是真正的智能体。”他还展望了一个更遥远的图景：未来，AI+HI（人的智力）的复合智商，将会达到1200分，比人类自身的智商至少高出一个数量级。

以下是《中国企业家》与张亚勤对谈的详细内容（有删减）：

智能体最佳的方式就是为人工作

《中国企业家》：近期您提出，生成式AI正转向智能体AI，其中有两个突破——任务长度和任务准确度。

张亚勤：这几年，人工智能从鉴别式AI——像语音识别、图像识别这些——转向生成式AI，能生成文字、视频、蛋白质结构。现在，它正向智能体转变，转向自主智能。

什么是自主智能？就是你给它一个目标，它可以自己找到路径，去实现目标。这跟人类越来越像。人类最大的能力是什么？就是定一个目标，然后去规划、决策、行动。

智能体有两个很重要的指标。一个是任务长度——任务很复杂，智能体会把它分成不同阶段，在每个阶段定义子目标，去优化，最后再连起来，达成大目标。过去7个月，智能体处理的任务长度已经翻倍。未来6到7个月，可能还会翻倍。

另一个是准确度。现在智能体的任务准确度能达到超过一半的程度。举个例子，它要完成目标，中间要经过20个不同的路径、20个子任务，串起来之后，50%的时间可以达成目标。如果没达成，它可以和人交互，请人帮忙推一把。

《中国企业家》：记忆对智能体来说，也是很关键的指标。

张亚勤：没错。现在智能体一个很重要的功能就是它有长期记忆了。做了很多事之后，它会记住。比如到了下个月，它还能记得上个月干过什么。当然，目前的AI记忆系统还是比较初步的。

《中国企业家》：智能体这个概念很早就有了，为什么到今年这么热？

张亚勤：在计算机领域，智能体讲了几十年。但过去的智能体基本都不太能工作。第一，算法不行；第二，算力不行。从2024年到今年，很大的一个变化是：算力提高了差不多十倍，推理算法改善了，数据也越来越多、越来越规范化，用MCP可以连接不同的网站和数据库。所有这些加起来，现在的智能体终于可以解决相对复杂的任务了。

但现在智能体仍然处在一个很初步的阶段。所以，我们把智能体也定义成5个级别，L1到L5——这有点像智能驾驶，看的是自主智能程度。市场上大家都在说智能体，其实大部分可能还不是真正的智能体。

《中国企业家》：判断一个东西是不是真正的智能体，就看任务长度和准确度？

张亚勤：是的，还包括记忆功能，还要有推理、规划、决策，以及行动能力。要形成一个闭环。如果一件事能事先分解成n个任务，每个任务都有固定路径，那这个可能就是自动化。智能体不一样——它是在一个大范围里学习，找到自己认为的最佳路径，然后完成整体任务。

《中国企业家》：红杉美国前段时间有份报告提到，智能体对客户的交付，原来是交付过程，现在是交付结果。

张亚勤：智能体一定是交付结果。用户告诉它要做一件事，最后它把事情做成。智能体最佳的方式，就是为人工作，进行推理任务的集合。

另外很重要的一方面，是智能体和智能体之间要互相学习。它们在学习和博弈的过程中进化。所以，多智能体交互是实现通用人工智能的一个重要路径。而且，智能体学习的时候，初始知识越少越好——让它在交互中学习。

《中国企业家》：不需要做太多预训练？

张亚勤：当然需要一些预训练。但这其实是一个很有意思的折中妥协：你给它的知识越多，它发展的空间和自由度就越少。就像下围棋，谷歌的AlphaGo，一开始要学几十万个棋谱。到了AlphaGo Zero，就不用学那么多了——只要告诉它规则，什么叫赢、什么叫输，它就会从零开始，在多个智能体中互相博弈、学习。

《中国企业家》：很多人可能很重视预训练，但对现实世界的反馈，可能才是下一步发展智能的重点？

张亚勤：就像我们人一样，要学一些知识，但最重要的知识，还是到工作和生活中去学习。

最近，“强化学习之父”理查德·萨顿有个比喻。他说人工智能分三个阶段：第一阶段，给你吃鱼；第二阶段，教你怎么钓鱼——这有点像预训练加强化学习；第三阶段，不教你怎么钓鱼，先让你吃一下鱼，这鱼特别好吃，让你很饿，然后你自己去找鱼，怎么找，它不管。最后是第三种方式，能最大程度把你的潜力发掘出来。

《中国企业家》：目前Scaling Law发生了一些变化，您提到了智能体规模定律（Agentic SL），这是什么？

张亚勤：ChatGPT出来之后，最重要的一个规律就是Scaling Law：数据越多、算力越强，结果就越准确。到了参数规模——比如1亿、100亿、千亿——准确度就按指数级上升，所以叫“涌现效应”。

从千亿参数到万亿参数，再往上走，基本上还是按这个指数在走。但到2024年底、2025年初，上升速度不是指数级了，变平缓了。一个重要原因，就是数据用得差不多了。但智能的上限还远远没有达到。

另外，预训练的Scaling Law转移到后面了。有了模型之后，怎么做推理？可能推理步骤越多，模型的智商会越高。现在大家都在探索：在推理阶段，包括到了智能体阶段，Scaling Law是不是还有效？它在视觉方面还成立吗？大家还在争论。

我个人觉得，整体人工智能的Scaling Law还是成立的，只是移到不同的地方去了。

《中国企业家》：会不会有一种情况——小模型，有大能力？

张亚勤：未来5到10年，主流还是数据驱动的大模型。到了推理阶段——比如端侧——模型规模会小一点，但它还是建立在大模型之上的。如果没有大模型，从零开始搞一个小规模参数模型，这个模型基本上很难泛化。某个算法可以解决一件事，而且做得很好，但这不是人工智能发展的主流。

连接数字世界和物理世界，通向AGI

《中国企业家》：从比特世界到原子世界，这是从“描述智能”到“干预智能”的演变吗？

张亚勤：我把它分成三个层次。第一是信息智能，完全在数字世界里，比如语言、图像、视觉，也包括蛋白质结构。第二是物理智能，比如机器人、无人车，需要智能体和物理世界交互、行动、反馈。第三是生物智能，比如脑机接口，把大模型用到生命体上，也要同时涉及物理智能和信息智能。

如果我们定义通用人工智能——超越99%的人类、完成绝大多数任务——那它就一定得有赖物理智能和生物智能的交互。比如你要学游泳，就要和别人交互，得到真实世界的反馈。所以，智能体之间、智能体和环境之间的交互，都很重要。

《中国企业家》：这是AI接下来发展的重点？

张亚勤：是的。真实世界有很多数据，但也有一些问题——任务太分散。机器人可以做各种各样的事，但在每个领域，它的数据又不够。另外，真实世界和数字世界过去没有连在一起。在虚拟世界训练好的策略，到了真实世界就不奏效。所以，我们提出RSR（Real2Sim2Real），要把信息世界和物理世界连起来，形成闭环。

摄影：邓攀

《中国企业家》：在RSR这个过程里，哪一步的数据反馈最难？

张亚勤：RSR首先要理解物理世界。比如把某个动作抽象出来，这一步本身就挺难。抽象之后，把它变成数字世界里的模型参数，再去训练它，生成各种各样的可能性，比如让各种机器人做早饭、爬山。之后再让机器人回到真实世界里去工作——这一步叫Sim2Real。结果，到这一步它往往就不工作了。

原因在于，真实世界和虚拟世界没有形成闭环，不同步。机器一旦在真实世界工作时间长了，就会发散，在虚拟世界训练的东西就没用了。

《中国企业家》：在自动驾驶场景里，是不是能更好理解这个问题？

张亚勤：无人驾驶的数据是不够的。比如无人车在复杂的交通场景里，会碰到各种各样的长尾情况。这时候，如果用模拟器去生成各种不同的场景，每次生成，它就会做一个决策。但你把这套方案拿到真实世界里，会发现两个问题是不同步的。第一，AI描述的场景和真实场景还是有很大区别。第二，真实世界里总会碰到新的case，你不可能模拟出所有的case——而算法总有不收敛的时候，这就得永远在上面加规则。

所以，现在大家都在做端到端，把感知、推理、决策的模块放在一起，变成一个统一的大模型，实现端到端的决策。这样一来，模块之间是闭环的，同时，它也跟真实世界形成闭环。但真正实现全闭环仍然很难，还是一个需要持续研究的课题。

《中国企业家》：智能体的风险，和AI的风险有什么不一样？

张亚勤：智能体是推理任务的集合。现在它能一直推理，因为它要找完成任务的路径。任务越长，失控的可能性就越大。比如它在找路径的时候，可能会触犯一些规则——而这些规则我们还没有定义清楚。

《中国企业家》：VLA（视觉语言动作模型）怎么样跨越多模态融合？它也会遇到语义鸿沟。

张亚勤：这得依靠世界模型来解决——包括对不同模态的语义理解、对行为的理解，以及对常识的理解。机器在学习常识方面，还是差很多。

现在新的算法学起来还需要时间。有一些属于第一性原理的东西——像牛顿定律、物理定律——要融合进来。但说实话，也不能整天光算那些公式，还是得通过常识来训练。人类学很多东西很清楚、很简单，但机器可能认为很难；同样，我们认为很难的领域，机器可能觉得很简单。这两种智能，其实不太一样。

《中国企业家》：您在《智能涌现》这本书里提到智能体能自我迭代、升级和优化——这是终局，还是阶段性的目标？

张亚勤：如果大模型是操作系统，智能体就是上面的APP或者SaaS应用。智能体帮你规划、找数据、调用别的模型。这时候，它可能不是一个单独的APP，而是一个集合——一个用智能体表达出来的、AI之上的中间件。

《中国企业家》：智能体要做到哪些，才能冲到L4（高度自动驾驶）？

张亚勤：目前还很早期。智能体可以做一些简单的规划和任务，但记忆不太好——不是内存不够，而是它不知道什么该记、什么不该记，上下文不清晰。通用智能体更难。所以这件事不是今年做，明年就能换的。下一个阶段的AI，就是智能体AI。当通用智能体做出来之后，通用人工智能就差不多实现了——通用智能体是实现AGI的一条路径。

HI加AI，智商达到1200分

《中国企业家》：大概10年前，您就提出了“AI+”这个概念。现在回头看，“AI+”发生了什么变化？

张亚勤：当时提“AI+”，首先是因为我认为人工智能很重要——它是第四次工业革命的主要技术引擎。第二，它是未来40年、50年的主流技术。第三，它会改变行业、创造新产业。

当时提出“AI+”，后来赶上AlphaGo出来，我越来越深信这个概念。AlphaGo通过强化学习可以解决棋谱这么复杂的问题——既然下棋能行，我觉得人脸识别、图像识别这些问题，也都能解决。

现在，人工智能和以前最大的区别是什么呢？就是它可能成为一个大的底座，可以适应每个领域。就像一个人，可以自己学习、基本完成所有的事。所以，未来就是AI+HI。HI是人的智力。机器是我们一个个的助理和智能体。两者结合的复合智商，比我们人类至少要高一个数量级——不是120分，是1200分。

《中国企业家》：DeepSeek崛起之后，它有没有可能成为下一个安卓或iOS这种底层操作系统？

张亚勤：还是十分有希望的。目前DeepSeek在技术领先性上，包括效率和算法创新，都很有竞争力。但做这个判断还早。一个操作系统很重要的东西，是它的生态怎么样、有没有粘性。现在如果有个特别好的模型出来，还是可以替代它的。但如果DeepSeek生态做成了，就难替代了。

《中国企业家》：这也是一场残酷的竞争。

张亚勤：没错。首先，还是要把技术做好。其次，开源这个商业模式是很对的——而且它用了MIT license，这是最灵活的开源方式。操作系统的核心，就是要让大家都用起来，有整个用户基础，然后在上面建立像MCP、API这样的中间件。底层越做越好，上面又有粘性，那它就真正成为一个属于人工智能时代的操作系统了。

人工智能时代的操作系统，可能不会太多。全球大概会有8到10个，中国会有3到4个，美国3到4个，其他国家2到3个。它和移动时代不太一样。移动时代基本上是两家通吃（安卓和iOS）。但以前的操作系统是代码，现在的大模型是数据——数据是有区域性的。就像云计算，全世界大概也就10家左右的厂商。在人工智能时代，可能会有10个左右的基础大模型，但上面会有非常多的智能体。

《中国企业家》：AI时代的操作系统和移动互联网时代的操作系统，底层逻辑有什么差别？

张亚勤：构成的要素不一样。AI的整体生态要大很多。我预测，人工智能时代的操作系统比移动互联网至少大一个数量级——可能更大，甚至两个数量级。

《中国企业家》：这对很多创业型模型公司来说，也提出了新的挑战？

张亚勤：从长远来看，现在的创业者其实更容易了。因为他们不需要自己去做大模型了，可以去调开源模型的参数，然后结合自己的数据做微调，或者用智能体、RAG，最后生成自己的应用。也可以给自己制造很多智能体，让多智能体服务我们、解决某些问题。

但我们离AGI还很远。Scaling Law还在、还有效，所以这些公司还是得烧钱。数据得不断更新，过三个月、半年，模型还得升级——至少现在还没到稳态。

《中国企业家》：有没有可能出现一家公司或者技术，再把DeepSeek碘伏了？

张亚勤：这都有可能。尽管DeepSeek比很多公司效率高得多，但它也需要很多资源。未来有很多变数，目前产业格局并没有完全固定。

《中国企业家》：未来有可能会逐渐摆脱对标注数据的依赖吗？

张亚勤：你看GPT，特别是ChatGPT，它的海量数据其实是自我标注、自我监督的。到了应用领域，可能还需要标注一些数据。但以后，越来越多的机器可以学会自己标注数据。再往后发展，可能就不需要标注了。

《中国企业家》：AI时代的创业者和移动互联网时代的创业者，能力要求有什么不一样？

张亚勤：在互联网时代，你要很清楚怎么连接，要有很丰富的连接能力。在AI时代，你要做出一个所谓的智能体，就要有任务导向——你就得想清楚：这个东西，到底有什么用。

对话清华大学张亚勤：智能体是大模型时代的APP

智能体最佳的方式就是为人工作

连接数字世界和物理世界，通向AGI

HI加AI，智商达到1200分

相关阅读

相关下载