理想定义具身智能汽车:比人安全、比人高效,还要对齐特斯拉FSD
真正的智能汽车,可能要比智能手机更有碘伏性。这句话放在今天,越来越像是一个事实判断,而非预言。

6月15日,理想汽车开了场Livis Day软件与具身智能发布会,把未来智能汽车的蓝图摊开在所有人面前。几个核心判断值得单独拎出来说——
首先是安全层面。过去我们谈智能汽车的安全,绕不开“功能安全”这个词,说白了就是“我已经按规定做了,出事别找我”,本质上是免责优先。但真正的具身智能不一样,它的安全逻辑是以保护人类为绝对核心,而且要比人类自己开车更安全。这可不是简单的技术升级,而是底层理念的彻底翻转。
其次是能力层面。传统智能汽车擅长的是“特定功能、特定场景”——比如高速上能跟车、能变道,但一碰到复杂路口就露怯。而具身智能的要求是全面学习人类的各种驾驶技能,更重要的是,它能独立完成任务,不需要你时刻盯着、随时准备接管。两者之间的差距,是“工具”和“伙伴”的差距。
最后是效率层面。过去我们老说“人机共驾”“人机协同”,听起来很美,但实际上是人机互相迁就、互相妥协。真正的具身智能,必须在效率上超越人类——保护人类安全、独立完成任务、比人更高效,三者缺一不可。坦白说,这才是所有人真正想要的智能化形态。
那么问题来了:什么才算得上是具身智能汽车?理想的答案是“四位一体”——一辆电动车、一位职业司机、一台AI计算机、一位生活助手。电动车和AI计算机是“具身”的部分,职业司机和生活助手则是“智能”的体现。这个定义很清晰:设备是身体,算法是灵魂。
理想官方总结得很直接:“我们要用具身智能,给你打造一辆能够保护人类安全、独立完成任务、比人类更高效的具身智能汽车。”这句话听起来宏大,但背后的技术落地才是真正值得关注的部分。
为了撑起这个定义,理想拿出了一套从模型到芯片的全栈方案。
先说模型。理想自研的马赫Mind-Pro模型已经全面落地,赋能L9 Livis车载智能。这个模型采用多模态流式时序建模,能让车辆连续理解动态的物理世界,同时具备因果推理和自主决策能力。在几个关键基准上——IFEval指令跟随、LongBench-v2超长文本理解、AIME26高阶数学推理、BFCL-v4工具调用——它已经稳居行业第一梯队,智能体生成基准Agent Benchmark上的成绩也超越了大多数主流智能体模型。更关键的是,它在Token生成速度、任务完成质量、成本控制和端到端响应时延等商业维度上足够高效,不是实验室里的花架子,而是真正可量产的东西。
再说感知。理想的3D ViT(三维视觉转换器)是其新一代自动驾驶基座模型的核心感知技术。它打破了传统2D视觉的局限,让车辆直接在3D空间中工作,实现对物理世界的精准理解、思考推理与行为生成。值得注意的是,这是行业内3D ViT的首次上车部署。
最后是一块芯片。为了让辅助驾驶能力跑得更快、更顺畅,理想选择了自研道路。今天发布的马赫M100是全球首款动态数据流芯片,采用5nm车规级工艺,单颗算力1280TOPS。由于特殊的架构设计,M100的算力利用率达到了82%。直接对标业内主流的ThorU时,理想芯片在CNN-Based骨干网络、UniAD以及理想马赫VLA核心模型的性能上,均领先2到4倍。
随着马赫M100的量产部署,理想汽车在芯片、编译器、操作系统、AI算法及域控制器上实现了全栈自研。这不只是一块芯片或一个模型的问题,而是为具身智能汽车的构想真正打下了地基。
整体来看,这场发布会没有空谈概念,而是把“具身智能”从一个听起来很酷的词,拆解成了安全逻辑、能力定义、效率标准,以及可量产的模型、感知架构和芯片。这条路如果走通,汽车产业的底层逻辑可能会被重新书写。