首页 > 教程攻略 > ai资讯 >MMSkills - 上海交大与小红书联合推出的多模态技能框架

MMSkills - 上海交大与小红书联合推出的多模态技能框架

来源:互联网 时间:2026-06-25 14:05:07

MMSkills是什么

先说说MMSkills的来头。这是上海交通大学和小红书联合搞出来的一个多模态技能框架,专门为通用视觉Agent设计。它的核心思路很有意思——把原本只能靠文字描述的技能,扩展成包含文本流程、运行时状态卡片和多视角关键帧的多模态知识单元。这样一来,Agent就不再是“盲人摸象”式地执行任务,而是真正能“看懂”当前界面状态再行动。通过一套叫branch loading的机制,系统能在运行时按需调用视觉证据,既灵活又高效。实验数据也很能说明问题:在OSWorld、macOSWorld、VAB-Minecraft这些GUI和游戏任务上,Gemini、Qwen、Kimi、GLM等主流模型接入后,表现都有稳定提升。

MMSkills的主要功能

这个框架的功能设计,可以说是在“如何让Agent更聪明地干活”这条路上走得很远。关键在于它把技能从静态文档变成了动态可感知的模块。

  • 多模态技能包构建

    :不再是干巴巴的步骤列表,而是整合了文本流程、运行时状态卡片和多视角关键帧,形成真正可复用的视觉程序性知识单元。
  • 自动化技能生成

    :基于公开的非测试交互轨迹,通过任务聚类、技能规划、合并泛化与视觉审计五个阶段,自动提炼出高质量的多模态技能库。
  • Branch Loading 分支加载

    :主Agent在运行时判断需要某技能时,才临时开启一个skill branch,按需调用相关视觉证据,而不是一股脑儿把所有信息塞进上下文。
  • View Selection 视角筛选

    :根据当前截图、历史动作和状态卡片,从技能包中智能挑选最相关的关键帧和视角进行对齐,避免信息冗余。
  • 结构化决策指导

    :分支完成视觉对齐后,向主Agent返回一个紧凑的决策支持报告,包含是否适用、子目标、执行计划、禁止操作和验证方法。
  • 跨领域任务覆盖

    :同时支持GUI桌面自动化和视觉游戏任务,比如Minecraft、Super Mario Bros,意味着这套技能可以在不同场景间迁移复用。

MMSkills的技术原理

听上去很酷,但具体是怎么实现的?几个技术关键点值得拆开来看。

  • 多模态技能包定义

    :MMSkills把传统文本技能做了“升维”处理。一个完整的技能单元包含三部分:SKILL.md文本流程讲“怎么做”,State_cards.json运行时状态卡片告诉Agent“什么时候能做”,Images多视角关键帧则提供视觉参考。这样Agent就能基于真实视觉状态判断技能何时适用、进度如何验证。
  • 自动化技能生成

    :整个过程分为五步走——任务聚类、簇内技能规划、技能合并泛化、文本草案生成、视觉grounding与审计。最终从公开轨迹中抽取出可复用的诊断性状态知识,而不仅仅是保存原始演示数据。这个“提炼”过程是关键。
  • Branch Loading 运行时机制

    :这才是整个系统的点睛之笔。主Agent判断某技能可能有用时,会临时打开一个skill branch,先执行View Selection选择关键状态视角,再由Branch Planning将视觉证据与当前环境对齐,最后返回压缩后的结构化决策支持。整个过程对主Agent的决策流程干扰最小。

如何使用MMSkills

如果是开发者,想把MMSkills用起来,流程其实相当清晰——当然,前提是你的Agent已经具备基础的视觉推理能力。

  • 获取技能库

    :直接去Hugging Face数据集下载预生成的多模态技能包,开箱即用。
  • 集成主Agent

    :把MMSkills的分支加载机制接入现有视觉Agent的推理流程,这一步需要在架构上做适配。
  • 触发技能调用

    :主Agent在运行时判断当前任务可能匹配某技能时,发起branch loading请求即可。
  • 接收结构化指导

    :临时分支完成视觉证据对齐后,会返回包含是否可用、子目标、执行计划等内容的决策支持。
  • 执行并验证

    :主Agent依据返回的指导执行动作,并通过状态卡片验证任务进度,形成闭环。

MMSkills的核心优势

相比传统的“纯文本技能”方案,MMSkills的优势是实打实的,不是纸上谈兵。

  • 状态感知决策

    :技能包里的运行时状态卡片,让Agent可以准确判断当前界面是否满足技能前置条件,不再靠“猜”。
  • 视觉证据对齐

    :多视角关键帧帮助Agent把文本条件grounding到真实画面,避免“按照文档步骤操作却发现按钮是灰色”这类尴尬场面。
  • 上下文高效管理

    :Branch Loading机制避免完整技能包直接注入主上下文,防止参考图片污染当前决策,这一设计非常巧妙。
  • 小模型增益显著

    :外部多模态程序性知识在Qwen3-VL-8B这类小模型上效果提升超过一倍,相当于给它们补上了内部过程先验不足的短板。
  • 行为模式优化

    :显著减少无效点击和重复动作,让Agent从“瞎点乱试”的探索式错误模式,转向真正的状态感知执行。

MMSkills的项目地址

  • 项目官网

    :https://zkangning.github.io/MMSkills_for_Visual_Agents/
  • GitHub仓库

    :https://github.com/zkangning/MMSkills_for_Visual_Agents
  • HuggingFace模型库

    :https://huggingface.co/datasets/zhangkangning/mmskills
  • arXiv技术论文

    :https://arxiv.org/pdf/2605.13527

MMSkills的同类竞品对比

把MMSkills和传统的纯文本技能方案放在同一个台面上对比,差距一目了然。

维度 MMSkills Text-only Skills
技能表示 文本流程 + 状态卡片 + 多视角关键帧 纯文本步骤或动作图
状态判断 通过运行时状态卡片和截图判断当前界面状态 仅靠文本描述推断,易忽略界面实际状态
运行时加载 Branch Loading 临时分支选择性加载视觉证据 通常直接注入完整文本技能到主上下文
上下文污染 通过 View Selection 过滤,避免参考图片污染主Agent 文本虽无图片污染,但缺乏视觉grounding
典型失败案例 能识别当前激活工作表、按钮可用状态等 易在错误工作表创建图表、误点灰色按钮
OSWorld整体表现 Gemini 3.1 Pro: 50.11%;Qwen3-VL-235B: 39.17% Gemini 3.1 Pro: 40.76%;Qwen3-VL-235B: 28.57%

MMSkills的应用场景

最后聊聊这个框架能用在哪些地方。核心价值在于:让Agent从“按脚本机器人”升级为“能看会想的执行者”。

  • 桌面 GUI 自动化

    :在Ubuntu或macOS环境中完成跨应用复杂操作,比如在LibreOffice里创建图表、修改文件权限,这些曾经让纯文本方案头痛的细碎步骤,MMSkills能处理得更稳。
  • 游戏 AI 智能体

    :在Minecraft生存模式中执行长程物品获取与合成规划,或者在平台跳跃游戏中基于视觉状态做决策——这在以往是个老大难问题。
  • 企业 RPA 增强

    :为现有机器人流程自动化系统增加视觉状态感知能力,提升跨软件操作的稳定性,减少“跑偏”概率。
  • 视觉任务教学

    :将人工操作经验沉淀为可复用的多模态技能库,既可以用作培训材料,也能辅助其他Agent学习,形成知识闭环。