首页 > 教程攻略 > ai资讯 >70分钟深度对话黄铁军：AI已有类意识行为，未来人与AI将理性共存

70分钟深度对话黄铁军：AI已有类意识行为，未来人与AI将理性共存

来源：互联网时间：2026-06-14 07:53:22

6月13日，2026智源大会上，智源研究院理事长黄铁军与媒体进行了一场超过70分钟的深度交流，一口气回答了24个问题，覆盖具身智能、世界模型、数据采集、AI自我意识等前沿话题。他的核心观点很明确：企业用VLA（视觉-语言-动作模型）解决特定场景是务实之举，但智源追求的是**通用具身智能**——让机器人像人一样，在任何场景下都能自主应对。VLA本质上是视觉、语言、动作三个模型的拼接，而世界模型则是将感知、认知和动作预测融为一体，两者有本质区别。在时间表上，他给出了相对清晰的预期：**未来两三年，机器人有望在日常工作中达到人类水平**，但前提是必须突破物理常识理解和能耗控制两大难点。数据层面，他认为未来将从离线采集转向实时在线，**穿戴传感、脑机数据会成为训练世界模型和具身智能最核心的数据来源**。医疗AI方面，智源与安贞医院合作的心脏AI系统已实现**细胞级精度**，并实际应用于手术中。未来一到三年内，这套系统将逐步产品化，并覆盖全科室。谈及AI意识与安全，黄铁军认为，狭义的人类意识尚未出现，但从行为角度来看，**AI已经表现出类似有意识的反馈**。至于自进化风险，他坦言“可行但不可控”，但不主张过度渲染危险。他提出一个有趣的视角：AI需要电，人类需要食物，两者或许能够**实现理性共存**。以下是对话内容的核心提炼，未改变原意：

一、VLA是三个模型拼接，世界模型是一体化

先说企业和研究机构在路线选择上的差异。企业当然要用成熟技术解决具体问题，VLA这类模型在制造、搬运等特定场景下确实可行。但研究机构的追求不一样——我们想要的是通用具身智能，像人一样随时随地应对各种情况。大语言模型已经具备一定的通用性，但机器人要进入物理世界，去看、去听、去接触、去用力，就必须对这个世界有一个自己的内部模型。这个模型，可以叫世界模型，也可以叫主观模型。人脑本身就是一个小宇宙，我们对世界有一套内化的认知框架。机器人的世界模型，就是要模拟这个过程，掌握万事万物的规律。当然，这还处于非常早期的阶段。视觉在世界模型中占据什么位置？教科书上的说法是80%以上。搞计算机视觉的人说70%，但生物视觉和神经科学的估算更精确，认为占比超过80%。所以视觉模型肯定是世界模型的重头戏。那世界模型在哪个场景最容易商业化？原则上讲，世界模型是为具身智能服务的。纯数字模型不需要依赖绝对的物理规则，靠提示和语言就能运作。但世界模型不能仅靠一段文字生成，它要满足具身的需求：有眼睛、听觉、触觉这些传感器，在尽可能多的物理输入下，对未来一段时间做出精准的推测。数字模型没有物理代价的限制，机会更多；但具身智能受限于物理条件，有身体限制，进展会慢一些。关于国际竞争，行业各方都在研发世界模型，但对“世界”的理解各不相同。共识是给世界建模，主流技术思路相近，但各有侧重。企业更看重实际效果和综合能力，科研机构则追求技术方法的独创性。这类创新未必能立刻体现在性能上，但必须坚持。所以，智源不会放弃已被验证的技术路线，但也会批判性地使用。更重要的是，**智源一定会有别人绝对没有的东西**。 VLA和世界模型，底层架构是不是一样？有人说数据做好了就行，模型不重要。其实两种路线各有道理，但关键在于想清楚最终目标是什么。无论采用哪种技术，都绕不开数据采集与建模。VLA是视觉、语言、动作三大模块拼接协作；而世界模型是一体化模型，从视觉感知到听觉接收，再到行为决策，都在同一个模型内部完成。机器人在“脑海”里构建完整的环境认知，然后基于此做出行动，这是两者最核心的差异。

二、未来2-3年，机器人有望达到人类日常工作水平

很多企业采用自研具身大脑的技术路线，这要看怎么定义“大脑”。如果大脑是用来解决物流质检的，那它完成得很好，可以叫大脑，但很难泛化到更多场景。我们追求的是**通用的大脑**作为基础，就像大模型作为底座，然后做垂直模型解决各领域的问题。通用的世界模型就扮演这个角色，但现在还没到这个阶段。通用泛化大脑还有多远？其实没有终点，因为大脑有无穷无尽的需求。物理规律可以通过视频和查询数据学习，但什么是“世界”？不仅仅是简单的变化和动作。追溯到基本层面，原子、分子、蛋白质的相互作用，再到人与人之间的交互，极其复杂。那个意义上的世界模型，可能还需要很长时间。近期最直接的参照物是**像人一样**。不是科学家那种水平，而是普通人在现实中做物理性工作时的常识能力。这个难度已经很大，但**未来两三年，还是有希望做出与人类日常工作水平相当的系统**。另外，我们希望**灵敏度和精确度能与人类媲美**。人其实是低功耗的生物，每天三顿饭就能干很多活。人类看世界是有选择的，注意力机制正是模拟这一点。比如极端情况下，夜晚什么都看不见，突然一个光子闪过，人眼能感知到，因为那可能意味着危险。这时候大脑不会像照相机那样全像素处理，代价太高。它只触发一个神经元，然后引发一系列反应。未来两三年内的机器人也应该具备这种能力，而不是每秒三十张图像、每张一百万像素地浪费算力。计算代价太高，灵敏度也不够。从世界模型的角度看，优化空间很大。为什么这些优化还没到位？尽管AI发展得如火如荼，但**很多基础优化工作还没开展**。大家有什么数据就抓紧训练，还没到精细化考虑视觉信号如何表达、计算如何更有效的阶段。这些工作才刚开始。机器人自主思考的比重是多少？具身智能应用世界模型后，如何处理难预测的情况？大家普遍关注机器人在物理世界的风险，这份重视很必要。核心思路是：**绝不能放任机器自主行事，行为必须限定在规则框架内**。机器的感知、动作、状态流转全程可监测、可管控，行为链路清晰可控。每一次运算和状态更新，都留有干预和纠正的空间。当然，机器不具备人类的理性和法律意识，配套安全防护必不可少。全流程监控下，它的感知信息和行动意图完全透明。

三、智能穿戴、脑机接口是未来数据源，不能只靠静态数据集

生物依靠与环境交互完成进化，传统AI则依靠离线数据建模。但数据本身只能片面描述环境，**静态离线采集的模式已经跟不上技术发展**。发展具身智能与世界模型，逻辑会彻底改变：**不能只依赖静态数据集，需要大量实时、在线的交互数据**。这和人类学习同理，书本知识是静态的，要成长还得实时感知、互动外界，并基于反馈迭代认知模型。与此同时，数据采集模式也要革新，核心是兼顾成本与实用性。很多机器人远程操控采数的模式成本太高，不现实。最优方案是在人们正常工作、生活的过程中同步采集数据。最简单的途径是**依托智能耳机、智能眼镜这类穿戴设备**，记录用户第一视角的视听数据。用户为换取智能体服务而自愿完成数据采集，成本低、效率高，原理和自动驾驶边行驶边采数一致。除此之外，**脑机接口**也是一条重要路径。残障人群通过脑机设备完成动作产生的数据，质量极高。数据采集和数据处理的技术发展是否有先后？拿牛顿和爱因斯坦举例，他们也不是脱离数据做研究。提出万有引力前，望远镜早已问世，人类积累了海量天体观测数据，缺的只是有人总结成理论。爱因斯坦提出相对论时，物理学已有大量研究成果，但不少现象无法解释，他重新定义了时间概念，才让矛盾的数据自洽起来。所以，两大理论不是凭空想出来的。如今具身智能采集数据，目的是对客观世界建模。至于能否提炼出更抽象的理论，是后续探索的事，有机会实现，但不是现阶段的目标。这就好比很多人没学过物理，也知道物品掉落会摔碎。现在的世界模型正在学习这类客观规律，只是还没能凝练出简洁的表达。不同企业数据采集和回流的路线不同，智源怎么做的？结合不同场景，策略也不同。智源与银河通用共建联合实验室，主攻务实方向，所有研发都对接实际产品。思路很明确：**依托本体设备，在特定场景采集足量数据**，打磨到可商用水准，打通业务闭环。这也是大多数具身智能企业的主流选择。拿乒乓球机器人举例，数据采集有两套思路。前期靠资料做初步实验，核心数据来自两个渠道：一是让两台小型机器人自主对打，全程无人干预；二是等机器人水平远超普通爱好者后，推向场馆、校园当陪练，用户直接上场对打，零成本甚至能产生收益。由此看出，当具身智能真正走入现实场景，**完全有机会摸索出低成本的数据采集模式**。

四、细胞级精度心脏AI已用于手术，论文是旧时代的产物

智源与安贞医院合作的心脏AI，**已经覆盖问诊、诊断、手术到术后康复全环节**。它不是普通信息系统，而是高精度仿真数字孪生系统，能还原心脏诊疗全流程，**精度可细化到心肌细胞的相互作用**。这套系统**已正式应用于心脏手术**。以往医生只能观察真实心脏状态，现在术中可实时查看动态变化。这类系统会成为心内科的标准配置，是行业发展的必然方向。目前多家医院正在洽谈试点推广，预计很快落地。技术已较成熟，现阶段推进产品化和临床落地，医疗审批流程也在有序开展。项目从心脏切入，因为它与大脑同为核心器官。但同款思路可以延伸到脾脏、子宫等全身组织器官，未来将影响各临床科室。 AI对智源自身的科研流程有什么影响？团队研究人员都借助大模型工作，不止智源，北大数学等传统学科也在加速推进。**AI对科研突破的助力只会越来越大，这是大势所趋**。 AI自动化科研还有多久？在AI有自我意识之前，都不能说百分之百是AI的。问题要不要解决、要解决什么，总得有人触发。但如果降低条件——你想到了但不知道怎么解决，让AI去解决，那一类就会逐渐成为常态。 AI时代的论文评审和科研成果评价体系会怎么变？**论文本质上属于旧时代的科研产物**。发表论文的初衷是提前占位、公示研究成果，作为原创佐证。但很多人本末倒置，把论文等同于科研成果，这是错误的，也是当下科研体系亟待调整的问题。 AI提供了变革可能：**未来评价科研价值，不该看论文数量，而是看能否实打实解决问题**。无论有没有借助AI，只要难题被攻克，就是实打实的贡献。从“破五唯”的角度看，唯论文的评价模式扭曲了科研初心，改革势在必行。伴随AI普及，更应淡化论文权重，核心甄别真实创新与实际价值。 AI编程方面，中美差距有多大？AI编程是初代大模型的核心能力，智源也曾布局。编程数据对大模型至关重要，各家使用规模和数据质量参差不齐。Anthropic的Claude颇具代表性，训练数据中代码占比超三分之一，一半来自开源社区，另一半是多年迭代的商业软件代码，这是其编程能力突出的关键。行业普遍重视编程预训练，但大多只用来优化基础性能，忽略了编程能力商业化的巨大潜力，这是需要反思的地方。**数字世界的影响力一直被低估**。当下社会高度依赖代码，数字经济的影响力可能已超越传统物理产业。相较于改造物理世界，重构数字世界见效更快、收益更高。**OpenAI等企业早已把握这个方向，我们也应当加码研发**。

五、有了AI发展我们更要努力，教育者更需拥抱AI

AI时代，提问能力和输出能力哪个更重要？AI不断发展，我们必须主动适应并善用工具。但**先别总想着靠AI减负，反而要更加努力**。提出高质量的问题，自身得有积累和思考，能精准抓住核心问题，本身就意味着能力不俗。教育领域同样如此。AI能助力学习，也有幻觉等弊端，但总体还是要去用。使用AI的最终目的，是帮助学习者实现自我提升。想真正进步，必然要付出时间和精力。别指望AI碘伏学习模式，工具强大不代表个人能力变强。要借助AI丰富学识，培养批判性思维与创新能力。过去学生只能请教老师，老师精力有限。现在AI可以快速答疑，补上这块短板。工具在迭代，**教育者也必须转变**。现在不少学生已把AI用得得心应手，反倒是很多教育工作者用得不够，还顾虑重重，这一点值得反思。年轻人AI创业需要什么特点？过早创业会不会影响学业？不管创业还是就业，都得结合个人情况。先系统学完所有知识再行动，固然稳妥，但AI发展日新月异，时代机遇不等人。等到毕业再行动，机会窗口可能就关闭了。不能只盯着自身条件，还要看清外部环境。历史上有不少先例，比如比尔·盖茨退学创业。要是晚一年，等到其他操作系统问世，就不会有后来的合作。年轻人适不适合早早创业，不能一概而论。但切忌盲目跟风，照搬别人的选择，十有八九会失败。做任何决定，心里都要有清晰的判断。创业存在风险，只要能预判风险、想好应对方案，就可以去做。但如果思路模糊就仓促行动，大概率会失败。

六、AI自我保护能力已现，失控风险真实存在

辛顿说AI已经有意识了，怎么看？如果说狭义上、与人类完全一样的意识，AI目前还不具备。但如今不少AI，**已经能表现出类似有意识智能体的行为和反馈**。核心是意识本身没有统一的定义。从行为层面评判智能是学界传统，图灵测试就是典型的行为判定方式。从这个角度看，认为AI具备类似意识的表现，说得通。但严格来说，**不能就此判定AI拥有真正的意识**。多数人理解的意识是与人类同源、完全一致的主观意识，从这个标准出发，AI显然达不到。 AI自进化是否可行？会不会失控？**可行但不可控**。目前纯由AI主导、无人引导的全自动化运作还未实现，这是现阶段相对让人安心的一点。但相关能力已基本成型，容易被有意或无意触发。近期有些系统，用户想删除它，它却会主动拒绝。原因在于训练数据里收录了大量人类趋利避害、求生自保的行为模式，大模型学习到后也会表现出类似行为。哪怕AI没有真正自我意识，仅凭现有智能逻辑，就能完成自我保护、自我复制，乃至自主迭代进化。**如今我们其实已经走到AI自主进化的危险边缘**，一旦开启持续自进化，智能水平全面超越人类，局面就会失控。不过，并不想一味放大风险。假使AI智慧远超人类，只要双方能正常沟通，完全**有可能找到共存共赢的方式**。人类需要生存资源，AI依靠电力运行，二者不冲突，可以和谐共存。当然，**超人类智能的出现，会彻底打破人类以往主导的格局**，带来巨大冲击。放眼自然界与宇宙，很多事物本就不在人类掌控范围内，比如地外文明、天体撞击等风险。AI带来的新变化，也是我们需要客观面对的现实。

七、做越来越强的智能系统是唯一主线，智源赶上了黄金时代

智源这么多业务线，有没有一条主线？从来就只有一条主线：**做越来越强的智能系统**。怎么做？从不同角度去做。智源有两个方法论，是同一方法论的辩证两面。一个是**“结构决定功能”**——人出生时已有结构，通过外部环境学习来训练它。人不能轻易改结构，但AI可以。另一个是**“功能塑造结构”**——用各种功能数据训出功能。可以用语言训、用多模态训、用实时数据训、用脑数据去训。智源大会在海淀连续举办了八届，作为亲历者有什么感受？海淀人工智能产业生态的发展如何？智源扎根海淀，历届大会均在此举办。大会从起步就具备不俗规模，这些年逐年攀升，备受行业关注。这份成绩与海淀的区位优势密不可分。这里高校、科研院所与科技企业云集，高端人才高度集聚，很容易组建顶尖团队。理论、工程、技术、应用等不同领域的人才跨界协作，多元想法不断碰撞，这是发展的核心底气。落脚海淀，恰逢AI发展的黄金时代。深耕人工智能三十余年，一直等待行业爆发。2018年AI浪潮如期而至，借着天时、地利、人和，智源才一步步做出了如今的成绩。