首页 > 教程攻略 > ai资讯 >70分钟深度对话黄铁军:AI已有类意识行为,未来人与AI将理性共存

70分钟深度对话黄铁军:AI已有类意识行为,未来人与AI将理性共存

来源:互联网 时间:2026-06-14 07:53:22
6月13日,2026智源大会上,智源研究院理事长黄铁军与媒体进行了一场超过70分钟的深度交流,一口气回答了24个问题,覆盖具身智能、世界模型、数据采集、AI自我意识等前沿话题。 他的核心观点很明确:企业用VLA(视觉-语言-动作模型)解决特定场景是务实之举,但智源追求的是**通用具身智能**——让机器人像人一样,在任何场景下都能自主应对。VLA本质上是视觉、语言、动作三个模型的拼接,而世界模型则是将感知、认知和动作预测融为一体,两者有本质区别。 在时间表上,他给出了相对清晰的预期:**未来两三年,机器人有望在日常工作中达到人类水平**,但前提是必须突破物理常识理解和能耗控制两大难点。 数据层面,他认为未来将从离线采集转向实时在线,**穿戴传感、脑机数据会成为训练世界模型和具身智能最核心的数据来源**。 医疗AI方面,智源与安贞医院合作的心脏AI系统已实现**细胞级精度**,并实际应用于手术中。未来一到三年内,这套系统将逐步产品化,并覆盖全科室。 谈及AI意识与安全,黄铁军认为,狭义的人类意识尚未出现,但从行为角度来看,**AI已经表现出类似有意识的反馈**。至于自进化风险,他坦言“可行但不可控”,但不主张过度渲染危险。他提出一个有趣的视角:AI需要电,人类需要食物,两者或许能够**实现理性共存**。 以下是对话内容的核心提炼,未改变原意:

一、VLA是三个模型拼接,世界模型是一体化

先说企业和研究机构在路线选择上的差异。企业当然要用成熟技术解决具体问题,VLA这类模型在制造、搬运等特定场景下确实可行。但研究机构的追求不一样——我们想要的是通用具身智能,像人一样随时随地应对各种情况。大语言模型已经具备一定的通用性,但机器人要进入物理世界,去看、去听、去接触、去用力,就必须对这个世界有一个自己的内部模型。这个模型,可以叫世界模型,也可以叫主观模型。 人脑本身就是一个小宇宙,我们对世界有一套内化的认知框架。机器人的世界模型,就是要模拟这个过程,掌握万事万物的规律。当然,这还处于非常早期的阶段。 视觉在世界模型中占据什么位置?教科书上的说法是80%以上。搞计算机视觉的人说70%,但生物视觉和神经科学的估算更精确,认为占比超过80%。所以视觉模型肯定是世界模型的重头戏。 那世界模型在哪个场景最容易商业化?原则上讲,世界模型是为具身智能服务的。纯数字模型不需要依赖绝对的物理规则,靠提示和语言就能运作。但世界模型不能仅靠一段文字生成,它要满足具身的需求:有眼睛、听觉、触觉这些传感器,在尽可能多的物理输入下,对未来一段时间做出精准的推测。数字模型没有物理代价的限制,机会更多;但具身智能受限于物理条件,有身体限制,进展会慢一些。 关于国际竞争,行业各方都在研发世界模型,但对“世界”的理解各不相同。共识是给世界建模,主流技术思路相近,但各有侧重。企业更看重实际效果和综合能力,科研机构则追求技术方法的独创性。这类创新未必能立刻体现在性能上,但必须坚持。 所以,智源不会放弃已被验证的技术路线,但也会批判性地使用。更重要的是,**智源一定会有别人绝对没有的东西**。 VLA和世界模型,底层架构是不是一样?有人说数据做好了就行,模型不重要。其实两种路线各有道理,但关键在于想清楚最终目标是什么。无论采用哪种技术,都绕不开数据采集与建模。VLA是视觉、语言、动作三大模块拼接协作;而世界模型是一体化模型,从视觉感知到听觉接收,再到行为决策,都在同一个模型内部完成。机器人在“脑海”里构建完整的环境认知,然后基于此做出行动,这是两者最核心的差异。

二、未来2-3年,机器人有望达到人类日常工作水平

很多企业采用自研具身大脑的技术路线,这要看怎么定义“大脑”。如果大脑是用来解决物流质检的,那它完成得很好,可以叫大脑,但很难泛化到更多场景。 我们追求的是**通用的大脑**作为基础,就像大模型作为底座,然后做垂直模型解决各领域的问题。通用的世界模型就扮演这个角色,但现在还没到这个阶段。 通用泛化大脑还有多远?其实没有终点,因为大脑有无穷无尽的需求。物理规律可以通过视频和查询数据学习,但什么是“世界”?不仅仅是简单的变化和动作。追溯到基本层面,原子、分子、蛋白质的相互作用,再到人与人之间的交互,极其复杂。那个意义上的世界模型,可能还需要很长时间。 近期最直接的参照物是**像人一样**。不是科学家那种水平,而是普通人在现实中做物理性工作时的常识能力。这个难度已经很大,但**未来两三年,还是有希望做出与人类日常工作水平相当的系统**。 另外,我们希望**灵敏度和精确度能与人类媲美**。人其实是低功耗的生物,每天三顿饭就能干很多活。人类看世界是有选择的,注意力机制正是模拟这一点。比如极端情况下,夜晚什么都看不见,突然一个光子闪过,人眼能感知到,因为那可能意味着危险。这时候大脑不会像照相机那样全像素处理,代价太高。它只触发一个神经元,然后引发一系列反应。 未来两三年内的机器人也应该具备这种能力,而不是每秒三十张图像、每张一百万像素地浪费算力。计算代价太高,灵敏度也不够。从世界模型的角度看,优化空间很大。 为什么这些优化还没到位?尽管AI发展得如火如荼,但**很多基础优化工作还没开展**。大家有什么数据就抓紧训练,还没到精细化考虑视觉信号如何表达、计算如何更有效的阶段。这些工作才刚开始。 机器人自主思考的比重是多少?具身智能应用世界模型后,如何处理难预测的情况?大家普遍关注机器人在物理世界的风险,这份重视很必要。核心思路是:**绝不能放任机器自主行事,行为必须限定在规则框架内**。机器的感知、动作、状态流转全程可监测、可管控,行为链路清晰可控。每一次运算和状态更新,都留有干预和纠正的空间。 当然,机器不具备人类的理性和法律意识,配套安全防护必不可少。全流程监控下,它的感知信息和行动意图完全透明。

三、智能穿戴、脑机接口是未来数据源,不能只靠静态数据集

生物依靠与环境交互完成进化,传统AI则依靠离线数据建模。但数据本身只能片面描述环境,**静态离线采集的模式已经跟不上技术发展**。 发展具身智能与世界模型,逻辑会彻底改变:**不能只依赖静态数据集,需要大量实时、在线的交互数据**。这和人类学习同理,书本知识是静态的,要成长还得实时感知、互动外界,并基于反馈迭代认知模型。 与此同时,数据采集模式也要革新,核心是兼顾成本与实用性。很多机器人远程操控采数的模式成本太高,不现实。最优方案是在人们正常工作、生活的过程中同步采集数据。 最简单的途径是**依托智能耳机、智能眼镜这类穿戴设备**,记录用户第一视角的视听数据。用户为换取智能体服务而自愿完成数据采集,成本低、效率高,原理和自动驾驶边行驶边采数一致。 除此之外,**脑机接口**也是一条重要路径。残障人群通过脑机设备完成动作产生的数据,质量极高。 数据采集和数据处理的技术发展是否有先后?拿牛顿和爱因斯坦举例,他们也不是脱离数据做研究。提出万有引力前,望远镜早已问世,人类积累了海量天体观测数据,缺的只是有人总结成理论。爱因斯坦提出相对论时,物理学已有大量研究成果,但不少现象无法解释,他重新定义了时间概念,才让矛盾的数据自洽起来。 所以,两大理论不是凭空想出来的。如今具身智能采集数据,目的是对客观世界建模。至于能否提炼出更抽象的理论,是后续探索的事,有机会实现,但不是现阶段的目标。 这就好比很多人没学过物理,也知道物品掉落会摔碎。现在的世界模型正在学习这类客观规律,只是还没能凝练出简洁的表达。 不同企业数据采集和回流的路线不同,智源怎么做的?结合不同场景,策略也不同。智源与银河通用共建联合实验室,主攻务实方向,所有研发都对接实际产品。思路很明确:**依托本体设备,在特定场景采集足量数据**,打磨到可商用水准,打通业务闭环。这也是大多数具身智能企业的主流选择。 拿乒乓球机器人举例,数据采集有两套思路。前期靠资料做初步实验,核心数据来自两个渠道:一是让两台小型机器人自主对打,全程无人干预;二是等机器人水平远超普通爱好者后,推向场馆、校园当陪练,用户直接上场对打,零成本甚至能产生收益。 由此看出,当具身智能真正走入现实场景,**完全有机会摸索出低成本的数据采集模式**。

四、细胞级精度心脏AI已用于手术,论文是旧时代的产物

智源与安贞医院合作的心脏AI,**已经覆盖问诊、诊断、手术到术后康复全环节**。它不是普通信息系统,而是高精度仿真数字孪生系统,能还原心脏诊疗全流程,**精度可细化到心肌细胞的相互作用**。 这套系统**已正式应用于心脏手术**。以往医生只能观察真实心脏状态,现在术中可实时查看动态变化。这类系统会成为心内科的标准配置,是行业发展的必然方向。 目前多家医院正在洽谈试点推广,预计很快落地。技术已较成熟,现阶段推进产品化和临床落地,医疗审批流程也在有序开展。项目从心脏切入,因为它与大脑同为核心器官。但同款思路可以延伸到脾脏、子宫等全身组织器官,未来将影响各临床科室。 AI对智源自身的科研流程有什么影响?团队研究人员都借助大模型工作,不止智源,北大数学等传统学科也在加速推进。**AI对科研突破的助力只会越来越大,这是大势所趋**。 AI自动化科研还有多久?在AI有自我意识之前,都不能说百分之百是AI的。问题要不要解决、要解决什么,总得有人触发。但如果降低条件——你想到了但不知道怎么解决,让AI去解决,那一类就会逐渐成为常态。 AI时代的论文评审和科研成果评价体系会怎么变?**论文本质上属于旧时代的科研产物**。发表论文的初衷是提前占位、公示研究成果,作为原创佐证。但很多人本末倒置,把论文等同于科研成果,这是错误的,也是当下科研体系亟待调整的问题。 AI提供了变革可能:**未来评价科研价值,不该看论文数量,而是看能否实打实解决问题**。无论有没有借助AI,只要难题被攻克,就是实打实的贡献。从“破五唯”的角度看,唯论文的评价模式扭曲了科研初心,改革势在必行。伴随AI普及,更应淡化论文权重,核心甄别真实创新与实际价值。 AI编程方面,中美差距有多大?AI编程是初代大模型的核心能力,智源也曾布局。编程数据对大模型至关重要,各家使用规模和数据质量参差不齐。Anthropic的Claude颇具代表性,训练数据中代码占比超三分之一,一半来自开源社区,另一半是多年迭代的商业软件代码,这是其编程能力突出的关键。 行业普遍重视编程预训练,但大多只用来优化基础性能,忽略了编程能力商业化的巨大潜力,这是需要反思的地方。**数字世界的影响力一直被低估**。当下社会高度依赖代码,数字经济的影响力可能已超越传统物理产业。相较于改造物理世界,重构数字世界见效更快、收益更高。**OpenAI等企业早已把握这个方向,我们也应当加码研发**。

五、有了AI发展我们更要努力,教育者更需拥抱AI

AI时代,提问能力和输出能力哪个更重要?AI不断发展,我们必须主动适应并善用工具。但**先别总想着靠AI减负,反而要更加努力**。提出高质量的问题,自身得有积累和思考,能精准抓住核心问题,本身就意味着能力不俗。 教育领域同样如此。AI能助力学习,也有幻觉等弊端,但总体还是要去用。使用AI的最终目的,是帮助学习者实现自我提升。想真正进步,必然要付出时间和精力。别指望AI碘伏学习模式,工具强大不代表个人能力变强。要借助AI丰富学识,培养批判性思维与创新能力。 过去学生只能请教老师,老师精力有限。现在AI可以快速答疑,补上这块短板。工具在迭代,**教育者也必须转变**。现在不少学生已把AI用得得心应手,反倒是很多教育工作者用得不够,还顾虑重重,这一点值得反思。 年轻人AI创业需要什么特点?过早创业会不会影响学业?不管创业还是就业,都得结合个人情况。先系统学完所有知识再行动,固然稳妥,但AI发展日新月异,时代机遇不等人。等到毕业再行动,机会窗口可能就关闭了。 不能只盯着自身条件,还要看清外部环境。历史上有不少先例,比如比尔·盖茨退学创业。要是晚一年,等到其他操作系统问世,就不会有后来的合作。年轻人适不适合早早创业,不能一概而论。但切忌盲目跟风,照搬别人的选择,十有八九会失败。 做任何决定,心里都要有清晰的判断。创业存在风险,只要能预判风险、想好应对方案,就可以去做。但如果思路模糊就仓促行动,大概率会失败。

六、AI自我保护能力已现,失控风险真实存在

辛顿说AI已经有意识了,怎么看?如果说狭义上、与人类完全一样的意识,AI目前还不具备。但如今不少AI,**已经能表现出类似有意识智能体的行为和反馈**。 核心是意识本身没有统一的定义。从行为层面评判智能是学界传统,图灵测试就是典型的行为判定方式。从这个角度看,认为AI具备类似意识的表现,说得通。但严格来说,**不能就此判定AI拥有真正的意识**。多数人理解的意识是与人类同源、完全一致的主观意识,从这个标准出发,AI显然达不到。 AI自进化是否可行?会不会失控?**可行但不可控**。目前纯由AI主导、无人引导的全自动化运作还未实现,这是现阶段相对让人安心的一点。但相关能力已基本成型,容易被有意或无意触发。近期有些系统,用户想删除它,它却会主动拒绝。原因在于训练数据里收录了大量人类趋利避害、求生自保的行为模式,大模型学习到后也会表现出类似行为。 哪怕AI没有真正自我意识,仅凭现有智能逻辑,就能完成自我保护、自我复制,乃至自主迭代进化。**如今我们其实已经走到AI自主进化的危险边缘**,一旦开启持续自进化,智能水平全面超越人类,局面就会失控。 不过,并不想一味放大风险。假使AI智慧远超人类,只要双方能正常沟通,完全**有可能找到共存共赢的方式**。人类需要生存资源,AI依靠电力运行,二者不冲突,可以和谐共存。 当然,**超人类智能的出现,会彻底打破人类以往主导的格局**,带来巨大冲击。放眼自然界与宇宙,很多事物本就不在人类掌控范围内,比如地外文明、天体撞击等风险。AI带来的新变化,也是我们需要客观面对的现实。

七、做越来越强的智能系统是唯一主线,智源赶上了黄金时代

智源这么多业务线,有没有一条主线?从来就只有一条主线:**做越来越强的智能系统**。怎么做?从不同角度去做。智源有两个方法论,是同一方法论的辩证两面。一个是**“结构决定功能”**——人出生时已有结构,通过外部环境学习来训练它。人不能轻易改结构,但AI可以。另一个是**“功能塑造结构”**——用各种功能数据训出功能。可以用语言训、用多模态训、用实时数据训、用脑数据去训。 智源大会在海淀连续举办了八届,作为亲历者有什么感受?海淀人工智能产业生态的发展如何?智源扎根海淀,历届大会均在此举办。大会从起步就具备不俗规模,这些年逐年攀升,备受行业关注。这份成绩与海淀的区位优势密不可分。 这里高校、科研院所与科技企业云集,高端人才高度集聚,很容易组建顶尖团队。理论、工程、技术、应用等不同领域的人才跨界协作,多元想法不断碰撞,这是发展的核心底气。 落脚海淀,恰逢AI发展的黄金时代。深耕人工智能三十余年,一直等待行业爆发。2018年AI浪潮如期而至,借着天时、地利、人和,智源才一步步做出了如今的成绩。

相关下载