首页 > 教程攻略 > ai资讯 >Wall-OSS-0.5 - 自变量机器人开源的国产具身智能模型

Wall-OSS-0.5 - 自变量机器人开源的国产具身智能模型

来源:互联网 时间:2026-05-29 08:48:10

Wall-OSS-0.5是什么

先把结论摆在这儿:Wall-OSS-0.5是自变量机器人开源的一款国产具身智能大模型,属于视觉-语言-动作(VLA)大模型。它的亮点在于——具备零样本能力,也就是说,模型不需要为特定任务做微调,直接就能部署到真实机器人上执行操作。这背后靠的是名为“Gradient-Bridge”的协同训练方法,将动作能力注入到基础模型骨干中,最终让机器人可以完成搬运、分拣等17个真实任务。其中,有4个任务的完成率超过了80%。

Wall-OSS-0.5的主要功能

  • 零样本真实机器人操作

    :预训练好的检查点,拿来就能装到物理硬件上。不用为特定任务再折腾微调,直接执行抓取、排序、整理这些操作。一句话:预训练即部署。
  • 多形态统一适配

    :单个预训练检查点就能适配20多种机器人形态,包括桌面双臂、移动操作等。传统方案每换一种硬件就得单独训练一套模型,这个设计打破了那种局限。
  • 三目标协同训练

    :离散动作预测、多模态预测、连续流匹配,三个优化目标放在一起训练,形成一个“梯度桥接”的效果。动作学习和视觉语言理解互不干扰,反而能互相提升。
  • 混合专家架构(MoT)

    :视觉-语言令牌走VL Expert路由处理,连续动作计算交给Action Expert,两者通过联合注意力机制实现端到端梯度流动。语言理解和动作生成都不耽误。
  • 视觉语言能力保持

    :动作训练不会削弱基础VLM的能力。实体grounding能力反而提升了21.8个百分点,通用视觉-语言理解与推理能力完整保留。
  • 高效微调适配

    :在LeRobot数据集上微调之后,15项真实机器人任务的平均进度达到了60.5%,比同类模型π0.5高出了17.5个百分点。
  • 强泛化与长程执行

    :即便是3项从未见过的任务(比如变形物体操作),依然能保持高进度。同时支持多阶段连续操作,比如绳索收紧、抹布折叠、果篮整理这类长程任务。

Wall-OSS-0.5的技术原理

  • 4B参数VLA架构

    :以30亿参数的Qwen2.5-VL视觉语言模型作为骨干,再加上动作生成组件,总参数量达到40亿。视觉感知、语言理解、机器人动作生成,端到端统一在了一起。
  • 混合专家路由(MoT)

    :视觉-语言令牌通过VL Expert路由处理,连续动作计算由独立的Action Expert负责。二者通过联合注意力机制端到端地流动梯度,避免动作训练干扰语言理解。
  • 梯度桥接协同训练

    :把离散动作预测、多模态预测、连续流匹配这三个互补的优化目标放在一起协同训练,形成一个“梯度桥接”。动作策略学习和视觉语言预训练知识相互增强,而不是互相冲突。
  • 连续流匹配动作生成

    :用Flow Matching技术对连续动作空间建模。相比传统的离散化或回归方法,它能生成更平滑、更高维的机器人控制信号。
  • 预训练即部署设计

    :通过大规模异构数据预训练,模型在预训练阶段就习得了通用的物理操作先验。检查点可以直接在真实机器人上零样本推理,不需要任务特定的微调后处理。
  • 大规模异构训练数据

    :覆盖20多种机器人形态,每轮训练包含超过100万条真实机器人轨迹。同时还融合了9000万条多模态语料,其中包含1200万实体桥接样本。采样策略是大约60%自采数据、40%开源数据,任务平衡做得不错。
  • 联合注意力与端到端优化

    :VL Expert和Action Expert共享注意力计算图。语言指令、视觉场景、动作输出在特征层面深度耦合,梯度可以跨模态双向传播。
  • 能力解耦保持机制

    :三目标协同加上专家分离设计,动作训练不会侵蚀基础VLM的能力。实体grounding能力提升21.8个百分点,通用视觉-语言理解与推理能力也完整保留了下来。

如何使用Wall-OSS-0.5

  • 环境准备

    :先创建一个Python 3.10的conda环境,安装PyTorch等基础依赖。注意,要确保安装了Flash Attention 2.7.4及以上版本,能起到加速推理的作用。
  • 安装LeRobot库

    :克隆Hugging Face上的LeRobot仓库,checkout到指定的兼容版本,然后执行pip install -e .完成安装。
  • 安装Wall-X工具链

    :克隆wall-x开源仓库,运行git submodule update --init --recursive拉取子模块,再执行安装命令完成工具链部署。
  • 下载预训练权重

    :到Hugging Face的x-square-robot/wall-oss-0.5下载官方发布的预训练模型检查点。
  • 配置机器人参数

    :根据目标机器人的类型(桌面双臂、移动操作等),设置自由度(DOF)配置、模型路径、数据路径以及训练超参数。
  • 执行微调(可选)

    :如果希望针对特定任务优化,可以在LeRobot格式的数据集上运行微调脚本,例如bash ./workspace/lerobot_example/run.sh,以提升任务表现。
  • 部署到真实硬件

    :加载预训练或微调后的检查点,在真实机器人硬件上执行零样本推理或微调后推理,直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心优势

  • 部署即用

    :传统VLA模型必须先微调才能用,而这个模型预训练检查点直接就产生了可执行的机器人策略。
  • 高效适应

    :在15项真实机器人任务上微调后,平均进度60.5%。π0.5是43.0%,高出17.5个百分点。
  • 强泛化能力

    :3项从未见过的任务(比如变形物体操作)依然保持高进度。绳索收紧任务能达到82%。
  • 视觉语言能力保持

    :动作训练不会侵蚀基础VLM能力。实体grounding能力提升21.8个百分点,通用VL能力完整保留。
  • 数据规模领先

    :覆盖20多种机器人形态,每轮100万+轨迹,9000万多模态样本。

Wall-OSS-0.5的项目地址

  • 项目地址:https://x2robot.com/oss#resources
  • Github仓库:https://github.com/X-Square-Robot/wall-x
  • 论文地址:https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同类竞品对比

直接看对比表格更清楚:

对比维度Wall-OSS-0.5π0.5OpenVLA

开发机构

自变量机器人(X Square Robot)Physical Intelligence(PI)Stanford等学术机构

参数规模

40亿(3B Qwen2.5-VL骨干)未公开(基于π0架构扩展)70亿(LLaMA 2-7B骨干)

核心架构

MoT混合专家+梯度桥接协同训练Transformer分层推理+动作专家Prismatic VLM(SigLIP + DINOv2 + LLaMA 2)

动作生成方式

离散token与连续流匹配协同优化高层离散token自回归+低层流匹配去噪将动作视为语言模型词汇表中的离散token预测

训练数据规模

20+种机器人形态,每轮100万+轨迹,9000万多模态样本网络数据+跨机器人经验+口头指令多源协同Open X-Embodiment数据集97万条轨迹

零样本部署能力

预训练检查点直接部署,17项任务中4项进度超80%预训练后需后训练/微调,不直接支持零样本硬件部署预训练模型需任务特定微调,不支持直接零样本部署

微调后性能

15项真实任务平均进度60.5%,领先π0.5达17.5个百分点真实家庭环境任务成功率60%-88%,复杂指令遵循率高WidowX / Google Robot多任务成功率领先RT-2-X 16.5%

开源程度

完全开源(权重、训练代码、配方、消融实验)研究发布,部分技术细节公开完全开源(模型权重、代码、LoRA/量化微调方案)

核心创新点

梯度桥接实现预训练即部署,动作与VL能力协同增强不互损开放世界泛化与层次化推理(高层语义规划+低层动作执行)首个全面开源的通用VLA,验证VLM直接微调生成动作的可行性

VLM能力保持

实体grounding提升21.8%,通用VL理解与推理能力完整保留依赖网络数据维持语义理解,动作训练后需专门保持基于预训练VLM微调,语言能力基线较高

Wall-OSS-0.5的应用场景

  • 家庭服务

    :积木排序、水果分类、抽屉整理、戒指堆叠这些日常家务操作,都能胜任。
  • 柔性物体处理

    :绳索收紧、抹布折叠、插花这类变形物体操作任务,也没问题。
  • 工业装配

    :精密零件抓取、颜色分类、工具归位等重复性制造流程,可以用来提升自动化水平。
  • 双臂协作

    :需要双手配合完成的复杂装配、整理及长程组合动作,这个模型也能应对。
  • 长程任务执行

    :多阶段连续操作,比如前面提到的果篮整理这类需要持久注意力的多步骤任务。