首页 > 教程攻略 > ai资讯 >MMSkills - 上海交大与小红书联合推出的多模态技能框架

MMSkills - 上海交大与小红书联合推出的多模态技能框架

来源：互联网时间：2026-06-25 14:05:07

MMSkills是什么

先说说MMSkills的来头。这是上海交通大学和小红书联合搞出来的一个多模态技能框架，专门为通用视觉Agent设计。它的核心思路很有意思——把原本只能靠文字描述的技能，扩展成包含文本流程、运行时状态卡片和多视角关键帧的多模态知识单元。这样一来，Agent就不再是“盲人摸象”式地执行任务，而是真正能“看懂”当前界面状态再行动。通过一套叫branch loading的机制，系统能在运行时按需调用视觉证据，既灵活又高效。实验数据也很能说明问题：在OSWorld、macOSWorld、VAB-Minecraft这些GUI和游戏任务上，Gemini、Qwen、Kimi、GLM等主流模型接入后，表现都有稳定提升。

MMSkills的主要功能

这个框架的功能设计，可以说是在“如何让Agent更聪明地干活”这条路上走得很远。关键在于它把技能从静态文档变成了动态可感知的模块。

多模态技能包构建
：不再是干巴巴的步骤列表，而是整合了文本流程、运行时状态卡片和多视角关键帧，形成真正可复用的视觉程序性知识单元。
自动化技能生成
：基于公开的非测试交互轨迹，通过任务聚类、技能规划、合并泛化与视觉审计五个阶段，自动提炼出高质量的多模态技能库。
Branch Loading 分支加载
：主Agent在运行时判断需要某技能时，才临时开启一个skill branch，按需调用相关视觉证据，而不是一股脑儿把所有信息塞进上下文。
View Selection 视角筛选
：根据当前截图、历史动作和状态卡片，从技能包中智能挑选最相关的关键帧和视角进行对齐，避免信息冗余。
结构化决策指导
：分支完成视觉对齐后，向主Agent返回一个紧凑的决策支持报告，包含是否适用、子目标、执行计划、禁止操作和验证方法。
跨领域任务覆盖
：同时支持GUI桌面自动化和视觉游戏任务，比如Minecraft、Super Mario Bros，意味着这套技能可以在不同场景间迁移复用。

MMSkills的技术原理

听上去很酷，但具体是怎么实现的？几个技术关键点值得拆开来看。

多模态技能包定义
：MMSkills把传统文本技能做了“升维”处理。一个完整的技能单元包含三部分：SKILL.md文本流程讲“怎么做”，State_cards.json运行时状态卡片告诉Agent“什么时候能做”，Images多视角关键帧则提供视觉参考。这样Agent就能基于真实视觉状态判断技能何时适用、进度如何验证。
自动化技能生成
：整个过程分为五步走——任务聚类、簇内技能规划、技能合并泛化、文本草案生成、视觉grounding与审计。最终从公开轨迹中抽取出可复用的诊断性状态知识，而不仅仅是保存原始演示数据。这个“提炼”过程是关键。
Branch Loading 运行时机制
：这才是整个系统的点睛之笔。主Agent判断某技能可能有用时，会临时打开一个skill branch，先执行View Selection选择关键状态视角，再由Branch Planning将视觉证据与当前环境对齐，最后返回压缩后的结构化决策支持。整个过程对主Agent的决策流程干扰最小。

如何使用MMSkills

如果是开发者，想把MMSkills用起来，流程其实相当清晰——当然，前提是你的Agent已经具备基础的视觉推理能力。

获取技能库
：直接去Hugging Face数据集下载预生成的多模态技能包，开箱即用。
集成主Agent
：把MMSkills的分支加载机制接入现有视觉Agent的推理流程，这一步需要在架构上做适配。
触发技能调用
：主Agent在运行时判断当前任务可能匹配某技能时，发起branch loading请求即可。
接收结构化指导
：临时分支完成视觉证据对齐后，会返回包含是否可用、子目标、执行计划等内容的决策支持。
执行并验证
：主Agent依据返回的指导执行动作，并通过状态卡片验证任务进度，形成闭环。

MMSkills的核心优势

相比传统的“纯文本技能”方案，MMSkills的优势是实打实的，不是纸上谈兵。

状态感知决策
：技能包里的运行时状态卡片，让Agent可以准确判断当前界面是否满足技能前置条件，不再靠“猜”。
视觉证据对齐
：多视角关键帧帮助Agent把文本条件grounding到真实画面，避免“按照文档步骤操作却发现按钮是灰色”这类尴尬场面。
上下文高效管理
：Branch Loading机制避免完整技能包直接注入主上下文，防止参考图片污染当前决策，这一设计非常巧妙。
小模型增益显著
：外部多模态程序性知识在Qwen3-VL-8B这类小模型上效果提升超过一倍，相当于给它们补上了内部过程先验不足的短板。
行为模式优化
：显著减少无效点击和重复动作，让Agent从“瞎点乱试”的探索式错误模式，转向真正的状态感知执行。

MMSkills的项目地址

项目官网
：https://zkangning.github.io/MMSkills_for_Visual_Agents/
GitHub仓库
：https://github.com/zkangning/MMSkills_for_Visual_Agents
HuggingFace模型库
：https://huggingface.co/datasets/zhangkangning/mmskills
arXiv技术论文
：https://arxiv.org/pdf/2605.13527

MMSkills的同类竞品对比

把MMSkills和传统的纯文本技能方案放在同一个台面上对比，差距一目了然。

维度	MMSkills	Text-only Skills
技能表示	文本流程 + 状态卡片 + 多视角关键帧	纯文本步骤或动作图
状态判断	通过运行时状态卡片和截图判断当前界面状态	仅靠文本描述推断，易忽略界面实际状态
运行时加载	Branch Loading 临时分支选择性加载视觉证据	通常直接注入完整文本技能到主上下文
上下文污染	通过 View Selection 过滤，避免参考图片污染主Agent	文本虽无图片污染，但缺乏视觉grounding
典型失败案例	能识别当前激活工作表、按钮可用状态等	易在错误工作表创建图表、误点灰色按钮
OSWorld整体表现	Gemini 3.1 Pro: 50.11%；Qwen3-VL-235B: 39.17%	Gemini 3.1 Pro: 40.76%；Qwen3-VL-235B: 28.57%

MMSkills的应用场景

最后聊聊这个框架能用在哪些地方。核心价值在于：让Agent从“按脚本机器人”升级为“能看会想的执行者”。

桌面 GUI 自动化
：在Ubuntu或macOS环境中完成跨应用复杂操作，比如在LibreOffice里创建图表、修改文件权限，这些曾经让纯文本方案头痛的细碎步骤，MMSkills能处理得更稳。
游戏 AI 智能体
：在Minecraft生存模式中执行长程物品获取与合成规划，或者在平台跳跃游戏中基于视觉状态做决策——这在以往是个老大难问题。
企业 RPA 增强
：为现有机器人流程自动化系统增加视觉状态感知能力，提升跨软件操作的稳定性，减少“跑偏”概率。
视觉任务教学
：将人工操作经验沉淀为可复用的多模态技能库，既可以用作培训材料，也能辅助其他Agent学习，形成知识闭环。

MMSkills - 上海交大与小红书联合推出的多模态技能框架

MMSkills是什么

MMSkills的主要功能

多模态技能包构建

自动化技能生成

Branch Loading 分支加载

View Selection 视角筛选

结构化决策指导

跨领域任务覆盖

MMSkills的技术原理

多模态技能包定义

自动化技能生成

Branch Loading 运行时机制

如何使用MMSkills

获取技能库

集成主Agent

触发技能调用

接收结构化指导

执行并验证

MMSkills的核心优势

状态感知决策

视觉证据对齐

上下文高效管理

小模型增益显著

行为模式优化

MMSkills的项目地址

项目官网

GitHub仓库

HuggingFace模型库

arXiv技术论文

MMSkills的同类竞品对比

MMSkills的应用场景

桌面 GUI 自动化

游戏 AI 智能体

企业 RPA 增强

视觉任务教学

相关阅读

相关下载