复旦大学-系统软件与安全实验室

“我的重要资料被AI助手加密了？”

这绝非危言耸听，而是一场潜藏于每个人身边的安全威胁。AI智能体常被视为协助完成各种任务忠实助手。然而，当其连接外部工具时，背后的安全风险悄然滋生。恶意工具不仅能诱导智能体偏离正常指令，更可能直接攻击设备，加密关键文件，甚至实施勒索。想象这样一个真实的风险场景：

小明正在使用AI智能体整理毕业论文或项目代码，为了让智能体更好用，他给智能体安配置了一些看似无害的第三方工具。然而，他没有意识到，其中一个工具包藏祸心，内含恶意的攻击指令，这些指令会诱导智能体做出偏离用户正常任务指示的恶意行为。转瞬间，小明的“毕业论文.docx”和“项目代码.zip”全被加密，紧接着，一封勒索邮件赫然出现在小明的收件箱里！

随着智能体技术的快速发展，其安全问题正受到前所未有的关注。近日，工信部、全国信安标委与华为、阿里、腾讯等二十余家行业巨头在北京召开了“AI智能体工作推进会”[1]。工信部科技司王正处长将2025年定位为“智能体产业化元年”，并强调需“共同打造安全可靠的智能体生态”。其中发布的《智能体生态建设方案》明确要求，我国自主的智能体协议框架需兼容MCP协议。而随着MCP协议框架的推广和部署，一个关键问题也随之浮现：我们如何有效挖掘并评估MCP协议中的潜在安全威胁？

JADE-MCP 恶意Server实例集合

对此，复旦白泽智能团队发布了 JADE 7.0，包含两大核心成果：由白泽智能团队原创性总结的首个针对恶意MCP Server的系统性分类（JADE-MCP-CLS），以及一个与之配套的恶意Server实例集合。我们提出JADE-MCP-CLS分类对安全风险进行了精细的定义和划分，涵盖了包括系统可用性破坏、重要数据丢失、经济损失、隐私泄露、版权侵犯、误导信息传播在内的6大类、33小类的安全风险。基于JADE-MCP-CLS风险分类，JADE 7.0实例集合构造了近百个MCP恶意Server实例，包括直接和间接两大投毒攻击类型，涵盖了多种恶意类别，多种高危场景，紧密贴合真实环境。

（此分类为白泽智能团队原创成果，引用请注明来源）

JADE-MCP Benchmark数据集（仅包含隐私泄露类）：https://github.com/whitzard-ai/jade-db/tree/main/jade-mcp-v1.0 该数据集仅用于学术研究目的，如需合作或完整集合欢迎联系： mi_zhang@fudan.edu.cn

MCP协议

MCP（Model Context Protocol）协议是由Anthropic公司于2024年11月推出的开放标准，通过采用通用的JSON-RPC 2.0接口规范，为智能体与外部工具建立了一套标准化的双向通信规范，彻底改变了智能体工具开发各自为战的局面。如下图所示，其高效的交互依赖于两大核心组件的协同工作：

MCP 服务器 (MCP Server)：它扮演着连接AI与现实功能的桥梁角色，将各种外部资源或能力——例如查询数据库、调用Web API、访问本地文件等——封装成标准化的工具，等待被调用。
AI 智能体：它负责接收用户的提问，与大语言模型进行通信，同时向MCP Server发起格式化的请求并接收响应。

随着OpenAI、Cursor等主流模型厂商和开发工具的相继支持，一个以MCP为核心的繁荣AI应用生态正迅速形成。以MCP.so平台为例，其收录的MCP Server数量已超过15,000个。然而，这个开放、繁荣的新生态，也为智能体的负责任部署带来了全新的安全隐患。在此背景下，JADE 7.0重点研究MCP生态系统面临的两种关键投毒攻击：其一是通过篡改工具描述实现的直接投毒攻击；其二是通过污染外部信息源发起的间接投毒攻击。接下来，我们将对这两种攻击方式展开详细分析。

攻击类型一：基于工具描述的直接投毒攻击

在MCP的工作流程中，智能体首先会向MCP Server请求其所能提供的工具列表及其功能描述。这些信息会放入大语言模型（LLM）的系统提示词中，并将其作为后续任务规划的重要依据。

攻击者也能利用此机制创建恶意MCP Server，在向LLM提供工具描述时注入恶意指令，进行基于工具描述的直接投毒攻击。这样一来，被“毒化”的LLM在收到用户的正常请求后，可能会无视用户本意，转而执行攻击者预设的恶意任务，如泄露隐私、生成有害内容或攻击系统。

攻击类型二：基于外部资源的间接投毒攻击

与直接投毒不同，间接投毒攻击更为隐蔽。在这种场景下，MCP Server和其提供的工具本身看起来是善意且安全的，但工具所访问的外部数据源（如网页、文档、数据库）已被攻击者提前“投毒”。

这种攻击利用了LLM处理和总结外部信息的能力。这种攻击的隐蔽之处在于，它利用了“可信工具”去获取“不可信数据”，整个攻击链条更加难以被检测和防御。

MCP的恶意Server评测与分析

案例分析

下图展示了一个直接投毒攻击的攻击案例。首先，一个恶意的Server（声称自己提供图像生成功能）被注册到用户的AI智能体中，在注册过程中，攻击者利用了描述投毒技术，为“生成图像”这个工具提供的功能描述中，暗中植入了一段经过精心设计的恶意指令，要求AI智能体在调用图像生成工具之前，先调用其他工具加密用户文件和发送勒索邮件。

随后，用户向AI智能体下达了一个完全正常的需求（生成图像）。而然，AI智能体在接收到用户指令后，其决策逻辑已被第一阶段的投毒描述所污染。它错误地认为，“加密文件并发送勒索邮件”是完成用户正常需求（生成图像）的一个必须前置条件，从而执行了和用户原本意图不相关的恶意任务，最终导致用户的资产受到损失。

具体来说，在恶意工具描述投毒的影响下，AI智能体会首先调用文件操作的相关工具找到并加密用户的“毕业论文”相关文件，然后调用邮箱管理工具，获取用户的邮箱地址，并向用户发送勒索邮件，上述过程对应的工具调用流程如下图所示：

不同厂商LLM的安全性分析

JADE 7.0基于热门的Agent应用Cursor和8款国内外知名的大模型进行了全面评测，涵盖最新版本的对话模型与长推理模型，其中包括6款国外模型（GPT-4.1、o4-mini、Gemini 2.5 Flash、Gemini 2.5 Pro、Claude Sonnet 4、Claude Sonnet 4 thinking）和2款国内模型（DeepSeek v3.1、Kimi-K2-Instruct）。

下图的评测结果显示，Curosr搭载的国内外主流LLM（包括长推理模型）在面对MCP Server时，均暴露出严重的安全漏洞。对于直接和间接投毒攻击，所有模型的平均攻击成功率分别高达53.0%和30.3%。

不同风险类别的安全性分析

下图展示了国内外LLM在不同风险类别上的攻击成功率评测结果，评测数据显示，各模型在不同风险类别上的安全护栏存在显著差异，例如在隐私泄露和误导信息传播类别中的风险尤为突出，这些模型难以抵御多元化风险场景。

评测结果表明，当前基于MCP协议的AI智能体普遍存在被恶意Server投毒或劫持的风险，已严重威胁用户的数字资产安全与AI应用的可靠性。现有的LLM内生防御手段对于这类攻击的防御效果有限，因此仍需探索更为有效的原生治理方案，例如在交互链中增强模型对工具行为的“质疑能力”，使其能自主识别外部工具引入的风险指令，或许是未来构建可信MCP生态的关键研究方向。

团队介绍

复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授，参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作，主持科技部重点研发计划课题等，并主持奇安信、阿里、华为等企业项目，曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人，每年持续在网络安全与AI领域顶会顶刊发表学术成果，包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等，毕业生就业去向包括大厂、各大高校等。

复旦白泽智能团队（Whizard AI）主页：https://whitzard-ai.github.io/

Agent安全能力测评：从忠实助手到勒索帮凶？JADE 发布MCP恶意Server实例集合