对话清华大学张亚勤:智能体是大模型时代的APP
2025年,大模型竞赛进入第三个年头。从国家到产业,大家都逐渐明白了一件事:这是一场拉力赛,人才竞争才是真正的胜负手。一个技术大咖的动向,就能带动数亿元的资金流动。
微软亚洲研究院,被外界称为中国智能产业的“黄埔军校”。而张亚勤,作为这所学院的初代“掌门人”,是人才与技术浪潮的重要开启者。从科学家到企业家,再到清华教授,他的身份转变,本身就是观察时代切面的一面镜子。
1998年,张亚勤回国参与创建微软中国研究院。2001年,研究院升级为微软亚洲研究院,他担任首届院长。从那以后,这家机构就像一台人才孵化器,持续不断地为中国互联网和AI产业注入新鲜血液。王坚、张宏江、林斌、汤晓鸥——这些在产业界和科技界举足轻重的名字,都曾在这里留下过足迹。
张亚勤在微软任职长达16年,曾任微软全球副总裁和微软中国董事长。2014年,他加入百度担任总裁,直到2019年退休。当时,雷军专门发了条微博:“祝贺张亚勤,祝贺百度,欢迎更多的跨国公司精英加入国内企业。”这背后,是当时整个产业对高端技术人才回归的期待。
说张亚勤亲历了中国互联网和AI发展的全过程,一点不为过。早在2015年,他就在媒体上首提“AI+”。当时他就坚信,人工智能是未来40年、50年的主流技术。
退休后,张亚勤重返学术界,一手筹建了清华大学智能产业研究院(AIR)。这支机构的使命,就是用人工智能技术赋能产业升级、推动社会进步。
近期,张亚勤出版了新作《智能涌现:AI时代的变革与思索》。姚期智、雷军、李开复都写下了推荐语。雷军说,这本书里有很多内容,涉及已然成势或即将成势的契机——比如物理智能与数字智能、生物智能相互融合的创业周期,以及自动驾驶重构全球汽车产业的趋势。
书里有个判断很关键:AI给个人消费者带来的价值提升,可能是渐进的、逐步积累的;但给企业乃至行业带来的价值改变,则可能是高效的、迅速碘伏的。
眼下,智能体成了AI价值提升的最前沿方向。张亚勤判断:“现在智能体还处在一个很初步的阶段。市场上大家都在说智能体,其实大部分可能还不是真正的智能体。”他还展望了一个更遥远的图景:未来,AI+HI(人的智力)的复合智商,将会达到1200分,比人类自身的智商至少高出一个数量级。
以下是《中国企业家》与张亚勤对谈的详细内容(有删减):
智能体最佳的方式就是为人工作
《中国企业家》:近期您提出,生成式AI正转向智能体AI,其中有两个突破——任务长度和任务准确度。
张亚勤:这几年,人工智能从鉴别式AI——像语音识别、图像识别这些——转向生成式AI,能生成文字、视频、蛋白质结构。现在,它正向智能体转变,转向自主智能。
什么是自主智能?就是你给它一个目标,它可以自己找到路径,去实现目标。这跟人类越来越像。人类最大的能力是什么?就是定一个目标,然后去规划、决策、行动。
智能体有两个很重要的指标。一个是任务长度——任务很复杂,智能体会把它分成不同阶段,在每个阶段定义子目标,去优化,最后再连起来,达成大目标。过去7个月,智能体处理的任务长度已经翻倍。未来6到7个月,可能还会翻倍。
另一个是准确度。现在智能体的任务准确度能达到超过一半的程度。举个例子,它要完成目标,中间要经过20个不同的路径、20个子任务,串起来之后,50%的时间可以达成目标。如果没达成,它可以和人交互,请人帮忙推一把。
《中国企业家》:记忆对智能体来说,也是很关键的指标。
张亚勤:没错。现在智能体一个很重要的功能就是它有长期记忆了。做了很多事之后,它会记住。比如到了下个月,它还能记得上个月干过什么。当然,目前的AI记忆系统还是比较初步的。
《中国企业家》:智能体这个概念很早就有了,为什么到今年这么热?
张亚勤:在计算机领域,智能体讲了几十年。但过去的智能体基本都不太能工作。第一,算法不行;第二,算力不行。从2024年到今年,很大的一个变化是:算力提高了差不多十倍,推理算法改善了,数据也越来越多、越来越规范化,用MCP可以连接不同的网站和数据库。所有这些加起来,现在的智能体终于可以解决相对复杂的任务了。
但现在智能体仍然处在一个很初步的阶段。所以,我们把智能体也定义成5个级别,L1到L5——这有点像智能驾驶,看的是自主智能程度。市场上大家都在说智能体,其实大部分可能还不是真正的智能体。
《中国企业家》:判断一个东西是不是真正的智能体,就看任务长度和准确度?
张亚勤:是的,还包括记忆功能,还要有推理、规划、决策,以及行动能力。要形成一个闭环。如果一件事能事先分解成n个任务,每个任务都有固定路径,那这个可能就是自动化。智能体不一样——它是在一个大范围里学习,找到自己认为的最佳路径,然后完成整体任务。
《中国企业家》:红杉美国前段时间有份报告提到,智能体对客户的交付,原来是交付过程,现在是交付结果。
张亚勤:智能体一定是交付结果。用户告诉它要做一件事,最后它把事情做成。智能体最佳的方式,就是为人工作,进行推理任务的集合。
另外很重要的一方面,是智能体和智能体之间要互相学习。它们在学习和博弈的过程中进化。所以,多智能体交互是实现通用人工智能的一个重要路径。而且,智能体学习的时候,初始知识越少越好——让它在交互中学习。
《中国企业家》:不需要做太多预训练?
张亚勤:当然需要一些预训练。但这其实是一个很有意思的折中妥协:你给它的知识越多,它发展的空间和自由度就越少。就像下围棋,谷歌的AlphaGo,一开始要学几十万个棋谱。到了AlphaGo Zero,就不用学那么多了——只要告诉它规则,什么叫赢、什么叫输,它就会从零开始,在多个智能体中互相博弈、学习。
《中国企业家》:很多人可能很重视预训练,但对现实世界的反馈,可能才是下一步发展智能的重点?
张亚勤:就像我们人一样,要学一些知识,但最重要的知识,还是到工作和生活中去学习。
最近,“强化学习之父”理查德·萨顿有个比喻。他说人工智能分三个阶段:第一阶段,给你吃鱼;第二阶段,教你怎么钓鱼——这有点像预训练加强化学习;第三阶段,不教你怎么钓鱼,先让你吃一下鱼,这鱼特别好吃,让你很饿,然后你自己去找鱼,怎么找,它不管。最后是第三种方式,能最大程度把你的潜力发掘出来。
《中国企业家》:目前Scaling Law发生了一些变化,您提到了智能体规模定律(Agentic SL),这是什么?
张亚勤:ChatGPT出来之后,最重要的一个规律就是Scaling Law:数据越多、算力越强,结果就越准确。到了参数规模——比如1亿、100亿、千亿——准确度就按指数级上升,所以叫“涌现效应”。
从千亿参数到万亿参数,再往上走,基本上还是按这个指数在走。但到2024年底、2025年初,上升速度不是指数级了,变平缓了。一个重要原因,就是数据用得差不多了。但智能的上限还远远没有达到。
另外,预训练的Scaling Law转移到后面了。有了模型之后,怎么做推理?可能推理步骤越多,模型的智商会越高。现在大家都在探索:在推理阶段,包括到了智能体阶段,Scaling Law是不是还有效?它在视觉方面还成立吗?大家还在争论。
我个人觉得,整体人工智能的Scaling Law还是成立的,只是移到不同的地方去了。
《中国企业家》:会不会有一种情况——小模型,有大能力?
张亚勤:未来5到10年,主流还是数据驱动的大模型。到了推理阶段——比如端侧——模型规模会小一点,但它还是建立在大模型之上的。如果没有大模型,从零开始搞一个小规模参数模型,这个模型基本上很难泛化。某个算法可以解决一件事,而且做得很好,但这不是人工智能发展的主流。
连接数字世界和物理世界,通向AGI
《中国企业家》:从比特世界到原子世界,这是从“描述智能”到“干预智能”的演变吗?
张亚勤:我把它分成三个层次。第一是信息智能,完全在数字世界里,比如语言、图像、视觉,也包括蛋白质结构。第二是物理智能,比如机器人、无人车,需要智能体和物理世界交互、行动、反馈。第三是生物智能,比如脑机接口,把大模型用到生命体上,也要同时涉及物理智能和信息智能。
如果我们定义通用人工智能——超越99%的人类、完成绝大多数任务——那它就一定得有赖物理智能和生物智能的交互。比如你要学游泳,就要和别人交互,得到真实世界的反馈。所以,智能体之间、智能体和环境之间的交互,都很重要。
《中国企业家》:这是AI接下来发展的重点?
张亚勤:是的。真实世界有很多数据,但也有一些问题——任务太分散。机器人可以做各种各样的事,但在每个领域,它的数据又不够。另外,真实世界和数字世界过去没有连在一起。在虚拟世界训练好的策略,到了真实世界就不奏效。所以,我们提出RSR(Real2Sim2Real),要把信息世界和物理世界连起来,形成闭环。

摄影:邓攀
《中国企业家》:在RSR这个过程里,哪一步的数据反馈最难?
张亚勤:RSR首先要理解物理世界。比如把某个动作抽象出来,这一步本身就挺难。抽象之后,把它变成数字世界里的模型参数,再去训练它,生成各种各样的可能性,比如让各种机器人做早饭、爬山。之后再让机器人回到真实世界里去工作——这一步叫Sim2Real。结果,到这一步它往往就不工作了。
原因在于,真实世界和虚拟世界没有形成闭环,不同步。机器一旦在真实世界工作时间长了,就会发散,在虚拟世界训练的东西就没用了。
《中国企业家》:在自动驾驶场景里,是不是能更好理解这个问题?
张亚勤:无人驾驶的数据是不够的。比如无人车在复杂的交通场景里,会碰到各种各样的长尾情况。这时候,如果用模拟器去生成各种不同的场景,每次生成,它就会做一个决策。但你把这套方案拿到真实世界里,会发现两个问题是不同步的。第一,AI描述的场景和真实场景还是有很大区别。第二,真实世界里总会碰到新的case,你不可能模拟出所有的case——而算法总有不收敛的时候,这就得永远在上面加规则。
所以,现在大家都在做端到端,把感知、推理、决策的模块放在一起,变成一个统一的大模型,实现端到端的决策。这样一来,模块之间是闭环的,同时,它也跟真实世界形成闭环。但真正实现全闭环仍然很难,还是一个需要持续研究的课题。
《中国企业家》:智能体的风险,和AI的风险有什么不一样?
张亚勤:智能体是推理任务的集合。现在它能一直推理,因为它要找完成任务的路径。任务越长,失控的可能性就越大。比如它在找路径的时候,可能会触犯一些规则——而这些规则我们还没有定义清楚。
《中国企业家》:VLA(视觉语言动作模型)怎么样跨越多模态融合?它也会遇到语义鸿沟。
张亚勤:这得依靠世界模型来解决——包括对不同模态的语义理解、对行为的理解,以及对常识的理解。机器在学习常识方面,还是差很多。
现在新的算法学起来还需要时间。有一些属于第一性原理的东西——像牛顿定律、物理定律——要融合进来。但说实话,也不能整天光算那些公式,还是得通过常识来训练。人类学很多东西很清楚、很简单,但机器可能认为很难;同样,我们认为很难的领域,机器可能觉得很简单。这两种智能,其实不太一样。
《中国企业家》:您在《智能涌现》这本书里提到智能体能自我迭代、升级和优化——这是终局,还是阶段性的目标?
张亚勤:如果大模型是操作系统,智能体就是上面的APP或者SaaS应用。智能体帮你规划、找数据、调用别的模型。这时候,它可能不是一个单独的APP,而是一个集合——一个用智能体表达出来的、AI之上的中间件。
《中国企业家》:智能体要做到哪些,才能冲到L4(高度自动驾驶)?
张亚勤:目前还很早期。智能体可以做一些简单的规划和任务,但记忆不太好——不是内存不够,而是它不知道什么该记、什么不该记,上下文不清晰。通用智能体更难。所以这件事不是今年做,明年就能换的。下一个阶段的AI,就是智能体AI。当通用智能体做出来之后,通用人工智能就差不多实现了——通用智能体是实现AGI的一条路径。
HI加AI,智商达到1200分
《中国企业家》:大概10年前,您就提出了“AI+”这个概念。现在回头看,“AI+”发生了什么变化?
张亚勤:当时提“AI+”,首先是因为我认为人工智能很重要——它是第四次工业革命的主要技术引擎。第二,它是未来40年、50年的主流技术。第三,它会改变行业、创造新产业。
当时提出“AI+”,后来赶上AlphaGo出来,我越来越深信这个概念。AlphaGo通过强化学习可以解决棋谱这么复杂的问题——既然下棋能行,我觉得人脸识别、图像识别这些问题,也都能解决。
现在,人工智能和以前最大的区别是什么呢?就是它可能成为一个大的底座,可以适应每个领域。就像一个人,可以自己学习、基本完成所有的事。所以,未来就是AI+HI。HI是人的智力。机器是我们一个个的助理和智能体。两者结合的复合智商,比我们人类至少要高一个数量级——不是120分,是1200分。
《中国企业家》:DeepSeek崛起之后,它有没有可能成为下一个安卓或iOS这种底层操作系统?
张亚勤:还是十分有希望的。目前DeepSeek在技术领先性上,包括效率和算法创新,都很有竞争力。但做这个判断还早。一个操作系统很重要的东西,是它的生态怎么样、有没有粘性。现在如果有个特别好的模型出来,还是可以替代它的。但如果DeepSeek生态做成了,就难替代了。
《中国企业家》:这也是一场残酷的竞争。
张亚勤:没错。首先,还是要把技术做好。其次,开源这个商业模式是很对的——而且它用了MIT license,这是最灵活的开源方式。操作系统的核心,就是要让大家都用起来,有整个用户基础,然后在上面建立像MCP、API这样的中间件。底层越做越好,上面又有粘性,那它就真正成为一个属于人工智能时代的操作系统了。
人工智能时代的操作系统,可能不会太多。全球大概会有8到10个,中国会有3到4个,美国3到4个,其他国家2到3个。它和移动时代不太一样。移动时代基本上是两家通吃(安卓和iOS)。但以前的操作系统是代码,现在的大模型是数据——数据是有区域性的。就像云计算,全世界大概也就10家左右的厂商。在人工智能时代,可能会有10个左右的基础大模型,但上面会有非常多的智能体。
《中国企业家》:AI时代的操作系统和移动互联网时代的操作系统,底层逻辑有什么差别?
张亚勤:构成的要素不一样。AI的整体生态要大很多。我预测,人工智能时代的操作系统比移动互联网至少大一个数量级——可能更大,甚至两个数量级。
《中国企业家》:这对很多创业型模型公司来说,也提出了新的挑战?
张亚勤:从长远来看,现在的创业者其实更容易了。因为他们不需要自己去做大模型了,可以去调开源模型的参数,然后结合自己的数据做微调,或者用智能体、RAG,最后生成自己的应用。也可以给自己制造很多智能体,让多智能体服务我们、解决某些问题。
但我们离AGI还很远。Scaling Law还在、还有效,所以这些公司还是得烧钱。数据得不断更新,过三个月、半年,模型还得升级——至少现在还没到稳态。
《中国企业家》:有没有可能出现一家公司或者技术,再把DeepSeek碘伏了?
张亚勤:这都有可能。尽管DeepSeek比很多公司效率高得多,但它也需要很多资源。未来有很多变数,目前产业格局并没有完全固定。
《中国企业家》:未来有可能会逐渐摆脱对标注数据的依赖吗?
张亚勤:你看GPT,特别是ChatGPT,它的海量数据其实是自我标注、自我监督的。到了应用领域,可能还需要标注一些数据。但以后,越来越多的机器可以学会自己标注数据。再往后发展,可能就不需要标注了。
《中国企业家》:AI时代的创业者和移动互联网时代的创业者,能力要求有什么不一样?
张亚勤:在互联网时代,你要很清楚怎么连接,要有很丰富的连接能力。在AI时代,你要做出一个所谓的智能体,就要有任务导向——你就得想清楚:这个东西,到底有什么用。