首页 > 教程攻略 > 手游攻略 >RoboBrain— 智源研究院开源的具身大脑模型

RoboBrain— 智源研究院开源的具身大脑模型

来源:互联网 时间:2025-03-31 15:23:52

智源研究院开源的具身智能大脑模型robobrain,旨在突破单机智能的局限,实现群体智能。该模型由基座模型(任务规划)、a-lora模块(可操作区域感知)和t-lora模块(轨迹预测)三个模块构成,并采用多阶段训练策略,具备长时记忆和高分辨率图像感知能力,可将抽象指令转化为具体动作。在各项评测中表现优异。

RoboBrain核心功能:

  • 任务规划: 将复杂指令分解成可执行的子任务。例如,“将水倒入杯中”会被分解成“拿起茶壶”、“将壶嘴对准杯口”、“倾倒”等步骤。
  • 可操作区域感知: 识别并理解物体的可操作部位,例如茶壶的壶嘴和把手。
  • 轨迹预测: 预测完成操作所需的完整运动轨迹。

技术架构与原理:

RoboBrain基于LLaVA框架,由视觉编码器(SigLIP模型)、投影器(两层MLP)和大语言模型(Qwen2.5-7B-Instruct模型)组成。其多阶段训练策略包括通用视觉预训练和机器人任务微调(基于ShareRobot数据集),该数据集包含多维度标注,确保模型在复杂场景下的可靠性。 推理过程为:视觉感知-指令分解-可操作区域感知-轨迹预测-动作执行。

项目资源:

  • 项目官网: https://www.php.cn/link/08382dcaf2fd60627832891d11dd0bf0
  • Github: https://www.php.cn/link/08382dcaf2fd60627832891d11dd0bf0
  • HuggingFace: https://www.php.cn/link/08382dcaf2fd60627832891d11dd0bf0
  • 论文: https://www.php.cn/link/08382dcaf2fd60627832891d11dd0bf0

应用场景:

RoboBrain作为RoboOS的核心,支持多机器人协作,并能处理复杂任务,例如“浇花”、“将花盆放入抽屉”等,同时具备实时反馈和策略优化能力,增强了系统的鲁棒性。 其可操作区域感知能力,例如在“将同色积木聚集到不同角落”任务中,能有效识别并规划操作路径。