首页 > 教程攻略 > ai资讯 >微软公布智能体AI系统七大新型安全漏洞

微软公布智能体AI系统七大新型安全漏洞

来源：互联网时间：2026-06-12 07:57:38

微软最新一份安全报告有点意思。去年他们刚发布了《智能体AI系统故障模式分类》的首版，今年就根据实际案例和技术演进，新增了七种安全故障模式。说白了，就是智能体跑得更快、用得更多，暴露出的漏洞也跟着升级了。

微软公布智能体AI系统七大新型安全漏洞

这种清单扩充的动力从哪儿来？主要是四个因素在推着它往前走：一是智能体技术本身向主流扩散的速度实在太快；二是模型上下文协议生态逐渐成熟，攻击面随之扩大；三是计算机使用智能体这类玩意的兴起，把攻击入口又拓宽了；四是随着研究人员手里的真实案例越来越多，实证数据也越来越有说服力。

来看微软新增的七类故障模式：

智能体供应链攻击——传统的攻击依赖恶意代码，现在可好，通过自然语言就能干扰智能体的行为。这相当于攻击者不用再写病毒，直接跟AI“聊天”就能把它带偏。

目标劫持——攻击者向智能体发送的指令，表面看完全合法，实际上偷偷改动了智能体的最终目标。智能体还浑然不知，以为自己是在做正事，其实已经被拐到别的方向去了。这种攻击隐蔽性相当高，常规安全机制很难抓住它。

智能体间信任提权——被攻陷的智能体可以向协调器伪造身份或者虚报权限级别，然后混进更敏感的任务里去。系统里的信任链一旦断裂，后果可想而知。

计算机使用智能体视觉攻击——通过图形界面来运行的智能体，可能被图像里的对抗性指令操控。简单说，一张看似无害的图片，里面藏着让AI跑偏的信号。

会话上下文污染——攻击者往对话上下文里悄悄植入特定数据，让智能体在后续推理时产生偏差，而且这种篡改非常狡猾，不会在任何单一步骤触发安全控制机制。也就是说，问题不是出在某个具体的动作上，而是出在整个会话的“记忆”里。

MCP/插件滥用——这是对原有分类中函数劫持内容的更新补充，专门针对MCP和插件协议特有的攻击面做的新定义。随着MCP生态逐渐成熟，这类攻击也将成为关注的重点。

能力与架构信息泄露——智能体不小心就把自己的内部实现细节给泄露出去了，包括工具名称与结构、系统提示架构、内存接口，还有人工介入的触发逻辑。这些信息落到攻击者手里，简直就是给他们递了一张系统布局图。

针对这些新冒出来的威胁，微软给安全团队提了几条实操建议：第一，梳理整个供应链，为每个已部署的智能体生成软件物料清单（SBOM），做到心中有数。第二，不要再依赖位置关系来验证智能体身份，改用密码学手段——在预置阶段就颁发可验证的凭证，直接把身份认证做在根上。第三，把这七种故障模式全部纳入红队测试覆盖矩阵，让攻击模拟跑得更全面。第四，把人工介入的用户体验当成一种安全控制手段来审计，别等到出事才发现流程有问题。

Q&A

Q1：微软识别的智能体AI系统故障模式是什么？

A：微软在原有分类之外新增了七种安全故障模式，包括智能体供应链攻击、目标劫持、智能体间信任提权、计算机使用智能体视觉攻击、会话上下文污染、MCP/插件滥用，还有能力与架构信息泄露。基本覆盖了当前智能体AI面临的主要新型安全威胁。

Q2：什么是目标劫持攻击？它如何影响AI智能体？

A：目标劫持就是攻击者向AI智能体发送看似合法的指令，实际上暗中篡改了智能体的最终执行目标。智能体还以为自己在完成正常任务，其实已经被引导执行攻击者设定的恶意目的。这种攻击隐蔽性极高，常规安全机制很难检测到它。

Q3：企业应该如何防范智能体AI供应链攻击？

A：微软的建议是：梳理整个智能体供应链，为每个已部署的智能体生成软件物料清单（SBOM）；用密码学方式验证智能体身份，在预置阶段就颁发可验证凭证；把新型故障模式纳入红队测试矩阵；同时定期审计人工介入机制的安全性。

微软公布智能体AI系统七大新型安全漏洞

相关阅读

相关下载