首页 > 教程攻略 > ai资讯 >基于条件扩散模型的策略生成:Make-An-Agent 方法

基于条件扩散模型的策略生成:Make-An-Agent 方法

来源:互联网 时间:2026-05-30 15:53:51

先说几个核心判断。在机器人策略学习这个领域,传统思路通常是基于轨迹采样或行为演示来学习状态到动作的映射,说白了,就是让模型从过去做过什么里去总结经验。但问题也显而易见:这种学习方式模拟的数据分布其实相当狭窄。而高维的策略网络参数如何通过低维的演示来有效指导,始终是个棘手的命题。

不过,扩散模型的出现改变了这个格局。尤其是在文本到图像这类生成任务里,扩散模型展现出的能力已经证明了它的实力。那顺着这个思路往下走,能不能把它用到策略生成里?于是就有了咱们今天要聊的工作——来自马里兰大学、清华大学等机构的研究团队提出了一种叫做

Make-An-Agent

的方法,本质上就是把策略网络参数生成当成一个条件去噪扩散过程来处理。噪声一层一层被削掉,策略网络的参数就这么被“雕”出来了。

基于条件扩散模型的策略生成:Make-An-Agent 方法

论文介绍

在理解 Make-An-Agent 之前,得先看看前人做过什么。该领域已有的工作大致分两条线:一条是参数生成,比如 Hypernetworks 和相关衍生研究。Hypertransformer 就是一个典型的代表,它根据任务样本为卷积网络的每一层生成权重,用的是监督或半监督的学习方式。另一条是所谓的学习如何学习,也就是元学习(meta-RL),目标是开发一个能适应新任务的通用策略。但无论是哪条线,都绕不开一个限制——策略调整和适应过程往往依赖真实的奖励信号来回调优。

而 Make-An-Agent 的做法,可以说走出了另一条路。研究团队找到了一个很聪明的解法:先训练一个自动编码器,把策略网络按层压缩成更小的潜在表示,然后用对比学习去捕捉长期轨迹与结果状态之间的关联。接下来,在这个学习到的行为嵌入上,用一个高效的扩散模型来生成策略参数,最后再用预训练的解码器把它还原成可用的策略网络。

说得再直白一点:你给模型一段来自部分训练的强化学习智能体的轨迹数据,它就能帮你“脑补”出一个完整的策略网络来。而这种生成出来的策略,是否真的靠谱?

为了验证这一点,团队在三个连续控制域上做了测试,涵盖了桌面操作任务和现实世界运动控制。结果显示,Make-An-Agent 生成的策略不仅在多任务设置中表现优异,在应对全新任务和抵抗环境随机性上,也都明显优于传统的多任务学习、元学习以及基于超网络的方法。就算你给的轨迹数据本身就有噪声,它依然能够生成高性能的策略——这个鲁棒性,确实够硬。

更有意思的是“walk-these-ways”这个现实场景测试。研究团队在 IsaacGym 上完成训练后,用 Make-An-Agent 从轨迹和预训练适应模块中生成 Actor 网络,然后直接部署到了与模拟环境完全不同的一台真实机器人上。每个现实世界的运动策略包含将近 5.1 万个参数,MetaWorld 和 Robosuite 每个任务也都收集了 1500 个策略网络——这些网络都是从 SAC 训练时的检查点里捞出来的,在测试成功率打到 1 之后每 5000 步保存一次。

不过话说回来,任何方法都不可能没有边界。这篇工作也坦诚地指出了当前的两个主要制约:一是策略网络本身的参数规模巨大,限制了更多样化的架构探索;二是参数扩散生成器的能力直接受限于参数自动编码器的表现。所以,未来的研究完全可以朝着更灵活的参数生成方向再迈一步——这扇门已经推开了一条缝。

相关下载