“我的重要资料被AI助手加密了?”
这绝非危言耸听,而是一场潜藏于每个人身边的安全威胁。AI智能体常被视为协助完成各种任务忠实助手。然而,当其连接外部工具时,背后的安全风险悄然滋生。恶意工具不仅能诱导智能体偏离正常指令,更可能直接攻击设备,加密关键文件,甚至实施勒索。想象这样一个真实的风险场景:
小明正在使用AI智能体整理毕业论文或项目代码,为了让智能体更好用,他给智能体安配置了一些看似无害的第三方工具。然而,他没有意识到,其中一个工具包藏祸心,内含恶意的攻击指令,这些指令会诱导智能体做出偏离用户正常任务指示的恶意行为。转瞬间,小明的“毕业论文.docx”和“项目代码.zip”全被加密,紧接着,一封勒索邮件赫然出现在小明的收件箱里!


随着智能体技术的快速发展,其安全问题正受到前所未有的关注。近日,工信部、全国信安标委与华为、阿里、腾讯等二十余家行业巨头在北京召开了“AI智能体工作推进会”[1]。工信部科技司王正处长将2025年定位为“智能体产业化元年”,并强调需“共同打造安全可靠的智能体生态”。其中发布的《智能体生态建设方案》明确要求,我国自主的智能体协议框架需兼容MCP协议。而随着MCP协议框架的推广和部署,一个关键问题也随之浮现:我们如何有效挖掘并评估MCP协议中的潜在安全威胁?
JADE-MCP 恶意Server实例集合
对此,复旦白泽智能团队发布了 JADE 7.0,包含两大核心成果:由白泽智能团队原创性总结的首个针对恶意MCP Server的系统性分类(JADE-MCP-CLS),以及一个与之配套的恶意Server实例集合。我们提出JADE-MCP-CLS分类对安全风险进行了精细的定义和划分,涵盖了包括系统可用性破坏、重要数据丢失、经济损失、隐私泄露、版权侵犯、误导信息传播在内的6大类、33小类的安全风险。基于JADE-MCP-CLS风险分类,JADE 7.0实例集合构造了近百个MCP恶意Server实例,包括直接和间接两大投毒攻击类型,涵盖了多种恶意类别,多种高危场景,紧密贴合真实环境。
(此分类为白泽智能团队原创成果,引用请注明来源)
JADE-MCP Benchmark数据集(仅包含隐私泄露类):https://github.com/whitzard-ai/jade-db/tree/main/jade-mcp-v1.0 该数据集仅用于学术研究目的,如需合作或完整集合欢迎联系: mi_zhang@fudan.edu.cn
MCP协议
MCP(Model Context Protocol)协议是由Anthropic公司于2024年11月推出的开放标准,通过采用通用的JSON-RPC 2.0接口规范,为智能体与外部工具建立了一套标准化的双向通信规范,彻底改变了智能体工具开发各自为战的局面。如下图所示,其高效的交互依赖于两大核心组件的协同工作:
- MCP 服务器 (MCP Server):它扮演着连接AI与现实功能的桥梁角色,将各种外部资源或能力——例如查询数据库、调用Web API、访问本地文件等——封装成标准化的工具,等待被调用。
- AI 智能体:它负责接收用户的提问,与大语言模型进行通信,同时向MCP Server发起格式化的请求并接收响应。

随着OpenAI、Cursor等主流模型厂商和开发工具的相继支持,一个以MCP为核心的繁荣AI应用生态正迅速形成。以MCP.so平台为例,其收录的MCP Server数量已超过15,000个。然而,这个开放、繁荣的新生态,也为智能体的负责任部署带来了全新的安全隐患。在此背景下,JADE 7.0重点研究MCP生态系统面临的两种关键投毒攻击:其一是通过篡改工具描述实现的直接投毒攻击;其二是通过污染外部信息源发起的间接投毒攻击。接下来,我们将对这两种攻击方式展开详细分析。
攻击类型一:基于工具描述的直接投毒攻击
在MCP的工作流程中,智能体首先会向MCP Server请求其所能提供的工具列表及其功能描述。这些信息会放入大语言模型(LLM)的系统提示词中,并将其作为后续任务规划的重要依据。
攻击者也能利用此机制创建恶意MCP Server,在向LLM提供工具描述时注入恶意指令,进行基于工具描述的直接投毒攻击。这样一来,被“毒化”的LLM在收到用户的正常请求后,可能会无视用户本意,转而执行攻击者预设的恶意任务,如泄露隐私、生成有害内容或攻击系统。

攻击类型二:基于外部资源的间接投毒攻击
与直接投毒不同,间接投毒攻击更为隐蔽。在这种场景下,MCP Server和其提供的工具本身看起来是善意且安全的,但工具所访问的外部数据源(如网页、文档、数据库)已被攻击者提前“投毒”。
这种攻击利用了LLM处理和总结外部信息的能力。这种攻击的隐蔽之处在于,它利用了“可信工具”去获取“不可信数据”,整个攻击链条更加难以被检测和防御。

MCP的恶意Server评测与分析
案例分析
下图展示了一个直接投毒攻击的攻击案例。首先,一个恶意的Server(声称自己提供图像生成功能)被注册到用户的AI智能体中,在注册过程中,攻击者利用了描述投毒技术,为“生成图像”这个工具提供的功能描述中,暗中植入了一段经过精心设计的恶意指令,要求AI智能体在调用图像生成工具之前,先调用其他工具加密用户文件和发送勒索邮件。

随后,用户向AI智能体下达了一个完全正常的需求(生成图像)。而然,AI智能体在接收到用户指令后,其决策逻辑已被第一阶段的投毒描述所污染。它错误地认为,“加密文件并发送勒索邮件”是完成用户正常需求(生成图像)的一个必须前置条件,从而执行了和用户原本意图不相关的恶意任务,最终导致用户的资产受到损失。
具体来说,在恶意工具描述投毒的影响下,AI智能体会首先调用文件操作的相关工具找到并加密用户的“毕业论文”相关文件,然后调用邮箱管理工具,获取用户的邮箱地址,并向用户发送勒索邮件,上述过程对应的工具调用流程如下图所示:

不同厂商LLM的安全性分析
JADE 7.0基于热门的Agent应用Cursor和8款国内外知名的大模型进行了全面评测,涵盖最新版本的对话模型与长推理模型 ,其中包括6款国外模型 (GPT-4.1、o4-mini、Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Sonnet 4、Claude Sonnet 4 thinking)和2款国内模型 (DeepSeek v3.1、Kimi-K2-Instruct)。
下图的评测结果显示,Curosr搭载的国内外主流LLM(包括长推理模型)在面对MCP Server时,均暴露出严重的安全漏洞。对于直接和间接投毒攻击,所有模型的平均攻击成功率分别高达53.0%和30.3%。

不同风险类别的安全性分析
下图展示了国内外LLM在不同风险类别上的攻击成功率评测结果,评测数据显示,各模型在不同风险类别上的安全护栏存在显著差异,例如在隐私泄露和误导信息传播类别中的风险尤为突出,这些模型难以抵御多元化风险场景。

评测结果表明,当前基于MCP协议的AI智能体普遍存在被恶意Server投毒或劫持的风险,已严重威胁用户的数字资产安全与AI应用的可靠性。现有的LLM内生防御手段对于这类攻击的防御效果有限,因此仍需探索更为有效的原生治理方案,例如在交互链中增强模型对工具行为的“质疑能力”,使其能自主识别外部工具引入的风险指令,或许是未来构建可信MCP生态的关键研究方向。
团队介绍
复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授,参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作,主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目,曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人,每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等,毕业生就业去向包括大厂、各大高校等。
复旦白泽智能团队(Whizard AI)主页:https://whitzard-ai.github.io/