首页 > 教程攻略 > ai资讯 >Agent终于长出了身体:JiuwenSymbiosis背后的思考与实践

Agent终于长出了身体:JiuwenSymbiosis背后的思考与实践

来源:互联网 时间:2026-06-14 14:43:19

下一代物理世界的智能系统,应该是什么样的?

三年前你要问AI圈的人,未来最强的AI会是什么样?十有八九的回答是:更大的GPT,更多的参数,更长的上下文,更强的推理。然后呢?从GPT-3.5一路卷到GPT-4、Claude、Gemini、DeepSeek、Qwen……直到今天,才突然意识到一个尴尬的问题:AI已经能写代码、做数学题、跟你聊人生哲学了,但它依然不会给自己倒杯水。

这恰恰是当前AI最致命的短板:它没有身体。

今天,openJiuwen社区正式开源了

Jiuwen Symbiosis

——一个专为更高阶physical AI打造的共生架构。从虚拟的数字世界走到真实的物理世界,这一步,相当于给AI装上了感知和行动的“骨骼与肌肉”。

Mora vec悖论:最难的不是高数,而是走路

1988年,机器人学家Hans Mora vec提出了一个相当反直觉的观点,后来被称为莫拉维克悖论:

对于计算机来说,下国际象棋很容易,做高等数学也很容易。但那些人类婴儿都能轻松完成的事情——行走、抓取、避障、保持平衡——反而异常困难。

原因很简单。这些能力不是靠逻辑推导出来的,而是经过数百万年进化才沉淀下来的身体智能。这就引出了大模型时代的一个经典困境:

“缸中之脑”

——智商200,但没有实体,对真实世界的摩擦力、重力和空间几何一无所知。

从“缸中之脑”到“身体力行”:智能的进化史

智能对外部机器本体的控制演进,本质上是一场从数字世界到物理现实的迁徙:

1.0 手搓任务(借人力)


靠人的理解,做极为原子化的控制操作。

2.0 虚拟环境演练(Sim2Real)


在Habitat、AI2-THOR这类仿真环境里模拟,开始有了空间概念。同时训练一个或多个模型,让大脑能分析指令、执行任务。

但2.0阶段的问题也随之暴露:

  • 跨本体环境泛化能力缺失

    ——模型训练完成后,技能集合就固化了。要让机器人学会“开抽屉后抓取内部物体”,得重新采集数据、重新训练整个模型。VLA缺乏组合泛化能力,没法把已学的“开抽屉”和“抓取”零样本组合成新任务。
  • 长程复合任务能力不足

    ——当前模型适合短程原子操作(比如“抓取红色方块”),但遇到“从料架上取Tray盘→绕过设备→放入机台→按压确认→返回原位”这种长程复合任务,单一VLA模型就力不从心了:缺少任务分解、子任务编排、异常回退的能力。它只能在训练分布内“模仿”,没法在运行时“规划”。
  • 故障定位困难

    ——模型把“视觉→语言理解→物理推理→动作生成”全压进一个Transformer,一旦运行失败(比如抓取偏移、碰撞),根本没法定位根因——是感知误识别、语言歧义、物理推理错误,还是控制轨迹发散?
  • 成功率低,稳定性差

    ——端到端基础模型是典型的黑盒结构,直接输出关节位姿等底层动作指令。大模型既要兼顾认知决策,又要管运动控制,整体实现难度极大,稳定性差,任务成功率也低。

3.0 共生时代(Jiuwen Symbiosis正在做的事)


模糊虚拟与现实的边界,让Agent真正理解物理法则,并直接输出控制硬件底层拓扑的Action序列。

Agent时代的到来

2023年以后,Agent成了AI领域最火的方向之一。大家发现:大模型已经具备了不错的推理能力,真正缺的是

行动能力

。于是有了Tool Calling、Function Calling、MCP、Browser Agent、Computer Use Agent……

Agent开始获得操作世界的能力,不再只是回答问题。但这里有个关键问题:这些Agent操作的依然是数字世界,不是物理世界。

不过,经过一系列演进,物理Agent的时代其实已经悄然到来。它比前辈们更靠近真实世界。

下一步,是让Agent走进现实世界。简单来说,传统Agent可以简化为这样一个过程:

而physical AI Agent的模式发生了本质变化——Agent面对的不再是文本,而是真实世界,需要与环境实时交互反馈,整体过程可以简化为下面这样:

但这依然远远不够。人类在执行任务时,观察、反馈是一个不间断的实时过程。同时,理论上“传感器→VLM→LLM→Planner→ROS”这套流程看起来很优雅,但实际执行中,很可能会变成JSON的极限堆积。系统越复杂,这个问题越明显,最终导致:Agent到底在想什么、为什么做这个决策、为什么执行失败——全成了糊涂账。

Jiuwen Symbiosis:让Agent拥有透明的态势感知系统

Jiuwen Symbiosis的设计理念非常简单:Agent的思考过程应该是可观察、可调试、可协作的。

团队尝试把Agent的内部状态显式暴露出来,而不是藏在黑盒里。在Jiuwen Symbiosis中,认知层与执行层通过共享Workspace协作,解决复杂任务执行,保障认知正确和快速响应,并极大简化跨本体适配。

实现过程既丰富又严谨,团队把核心骨架称为

态势感知环(Situation Awareness Loop)

。在此基础上,又加入了安全规划、状态感知、观测反馈、空间记忆等关键技术模块。

多模态感知(Multimodal Perception)

让physical AI Agent主动感知世界,是Agent从数字走向物理的基础。同时,把理解从决策中分离出来,在进行Action之前充分理解场景,输出结构化的世界状态——比如被检测对象、对象位姿、置信度等。

安全规划(Safe Planning)

基于Prompt任务指令和结构化世界状态进行任务规划,对相关Skill中的参数动态赋值,再做物理可行性、安全性和约束校验,拒绝不可执行的方案。

物理执行(Physical Action)

按照Skill的建议,调用相关Action Tool原子能力,最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。

状态观察(Observation)

对物理动作执行后的真实世界状态进行采集与结构化提取,通过视觉等传感器获取执行结果,识别物体位姿、环境变化、交互效果等关键信息,输出结构化的世界观测状态,为后续Feedback偏差计算提供客观依据。

观测反馈(Feedback)

基于观测结果构建闭环修正机制,将执行偏差、异常状态、成功/失败判据回传至推理与规划模块,实现动作参数实时调整、规划序列动态优化、异常场景自主恢复,同时沉淀交互数据用于技能迭代,形成“感知-规划-执行-观测-反馈”的完整闭环,持续提升态势感知规划的鲁棒性。

空间记忆(Spatial Memory)

通过物体级感知,实现对空间的对象化表征(如3D Scene Graph),构建物体级的空间关系;通过变化检测技术发现事件,自动化增量式维护空间关系。同时,通过时间维度压缩、空间层级聚合和情景事件聚类,形成多时空尺度的组织,使能任务驱动的空间上下文构建。

拥有这些能力的physical AI Agent,会带来几个明显的变化:

  • Zero跨本体、跨环境自主适应泛化能力;
  • 针对复杂任务,具备自主拆解、分步执行能力;
  • 减少对训练数据的依赖;
  • 本体操作的自我总结与进化能力。

用户视角下的Jiuwen Symbiosis:

从用户视角看,Jiuwen Symbiosis就是一个“能懂人话、看得见物理世界、长了四肢的智能助手”。用户不需要示教,不需要教它怎么抓东西、怎么走路,就像指挥一个经验丰富的工人一样,用自然语言下任务,它就能自己完成感知、理解、规划、执行。

Symbiosis:共生,而非控制

为什么叫Symbiosis?

我们相信,未来的场景不是这样:

而是这样:

这是一种新的持续协作关系。在这个系统中,Agent不只是工具,而是长期合作伙伴——它能理解目标、主动规划、请求帮助、从反馈中学习,从而形成真正的人机共生。

团队的思路是教给机器人“How”,而不是传统的“What”,允许它尝试并及时纠错,沉淀经验,最终达到自我演进的目标。

终极的physical AI不会由某一家企业独立完成——就像Linux不是一家公司建的,ROS也不是一家公司建的。未来的行业生态需要开放协作,因此openJiuwen团队决定

开源Jiuwen Symbiosis

希望它能成为一个透明的Agent for Physics、一个可扩展的physical AI框架、一座连接大模型与机器人世界的桥梁。

“共生”的另一层含义,是

算力生态的亲和共生

。Jiuwen Symbiosis的轻量化视觉感知模型可部署在本地端侧,显存消耗低,对包括Ascend在内的多种生态都能较好适配——比如采用Ascend-SACT/GroundingDINO等。其输出结果完全兼容主流检测格式,可直接对接昇腾版及其他生态兼容模型,完成下游任务联动。

Jiuwen Symbiosis与昇腾、鲲鹏

很多physical AI系统还在沿用“大模型+GPU”的思路。但真实机器人场景中,问题往往不是单纯的模型推理,而是如何让

感知、认知、规划和执行

在有限功耗和带宽下形成稳定闭环。

Jiuwen Symbiosis从设计之初就采用了端云协同架构:大规模推理和复杂规划运行在云侧LLM/VLM,端侧则专注于实时感知与执行。这种架构与昇腾、鲲鹏的异构计算能力形成了天然匹配:

  • 昇腾提供较高TOPS的AI推理能力,可承担目标检测、视觉理解、多模态感知等高频任务;
  • 鲲鹏CPU则负责工具调度、任务编排、状态管理以及机器人控制逻辑,实现低延迟、高可靠的执行链路。

更重要的是,Jiuwen Symbiosis继承了OpenJiuwen在鲲鹏与昇腾生态上的优化成果。在某些场景中,系统能够将规划负载卸载到昇腾NPU,将Agent Runtime、Memory、Workspace、Tool Calling等逻辑运行在鲲鹏CPU上,从而避免传统GPU方案中“所有任务争抢同一计算资源”的瓶颈,最终形成一种更符合机器人运行规律的资源分工。

这种分层架构不仅提升了系统吞吐能力,也显著降低了端侧部署成本和整体功耗,使Jiuwen Symbiosis能够更自然地运行在机器人、机械臂、四足机器人以及边缘智能设备等真实场景中。

未来

今天的Agent已经学会阅读,正在学会思考。下一步,它们将学会行动。而当感知、认知与行动形成闭环时,真正的physical AI时代也许才刚刚开始。