微软公布智能体AI系统七大新型安全漏洞
微软最新一份安全报告有点意思。去年他们刚发布了《智能体AI系统故障模式分类》的首版,今年就根据实际案例和技术演进,新增了七种安全故障模式。说白了,就是智能体跑得更快、用得更多,暴露出的漏洞也跟着升级了。

这种清单扩充的动力从哪儿来?主要是四个因素在推着它往前走:一是智能体技术本身向主流扩散的速度实在太快;二是模型上下文协议生态逐渐成熟,攻击面随之扩大;三是计算机使用智能体这类玩意的兴起,把攻击入口又拓宽了;四是随着研究人员手里的真实案例越来越多,实证数据也越来越有说服力。
来看微软新增的七类故障模式:
智能体供应链攻击——传统的攻击依赖恶意代码,现在可好,通过自然语言就能干扰智能体的行为。这相当于攻击者不用再写病毒,直接跟AI“聊天”就能把它带偏。
目标劫持——攻击者向智能体发送的指令,表面看完全合法,实际上偷偷改动了智能体的最终目标。智能体还浑然不知,以为自己是在做正事,其实已经被拐到别的方向去了。这种攻击隐蔽性相当高,常规安全机制很难抓住它。
智能体间信任提权——被攻陷的智能体可以向协调器伪造身份或者虚报权限级别,然后混进更敏感的任务里去。系统里的信任链一旦断裂,后果可想而知。
计算机使用智能体视觉攻击——通过图形界面来运行的智能体,可能被图像里的对抗性指令操控。简单说,一张看似无害的图片,里面藏着让AI跑偏的信号。
会话上下文污染——攻击者往对话上下文里悄悄植入特定数据,让智能体在后续推理时产生偏差,而且这种篡改非常狡猾,不会在任何单一步骤触发安全控制机制。也就是说,问题不是出在某个具体的动作上,而是出在整个会话的“记忆”里。
MCP/插件滥用——这是对原有分类中函数劫持内容的更新补充,专门针对MCP和插件协议特有的攻击面做的新定义。随着MCP生态逐渐成熟,这类攻击也将成为关注的重点。
能力与架构信息泄露——智能体不小心就把自己的内部实现细节给泄露出去了,包括工具名称与结构、系统提示架构、内存接口,还有人工介入的触发逻辑。这些信息落到攻击者手里,简直就是给他们递了一张系统布局图。
针对这些新冒出来的威胁,微软给安全团队提了几条实操建议:第一,梳理整个供应链,为每个已部署的智能体生成软件物料清单(SBOM),做到心中有数。第二,不要再依赖位置关系来验证智能体身份,改用密码学手段——在预置阶段就颁发可验证的凭证,直接把身份认证做在根上。第三,把这七种故障模式全部纳入红队测试覆盖矩阵,让攻击模拟跑得更全面。第四,把人工介入的用户体验当成一种安全控制手段来审计,别等到出事才发现流程有问题。
Q&A
Q1:微软识别的智能体AI系统故障模式是什么?
A:微软在原有分类之外新增了七种安全故障模式,包括智能体供应链攻击、目标劫持、智能体间信任提权、计算机使用智能体视觉攻击、会话上下文污染、MCP/插件滥用,还有能力与架构信息泄露。基本覆盖了当前智能体AI面临的主要新型安全威胁。
Q2:什么是目标劫持攻击?它如何影响AI智能体?
A:目标劫持就是攻击者向AI智能体发送看似合法的指令,实际上暗中篡改了智能体的最终执行目标。智能体还以为自己在完成正常任务,其实已经被引导执行攻击者设定的恶意目的。这种攻击隐蔽性极高,常规安全机制很难检测到它。
Q3:企业应该如何防范智能体AI供应链攻击?
A:微软的建议是:梳理整个智能体供应链,为每个已部署的智能体生成软件物料清单(SBOM);用密码学方式验证智能体身份,在预置阶段就颁发可验证凭证;把新型故障模式纳入红队测试矩阵;同时定期审计人工介入机制的安全性。