活动回顾 | 南洋理工大学博士生刘艺：基于提示工程的大模型安全

发布者：刘智晨发布时间：2023-11-12浏览次数：14

活动回顾

2023年11月8日，来自南洋理工大学的博士生刘艺来到复旦大学江湾校区交叉二号学科楼，分享了题为“Prompt Engineering-based LLM Security”的讲座。

刘艺首先介绍了他们团队目前主要的研究方向，大语言模型及其相关应用的安全问题，他指出了这些备受关注的新型系统存在的安全隐患，并介绍了他们团队近期的工作成果。

刘艺提出，许多大语言模型是闭源的，而集成这些模型的新型应用只提供黑盒访问，这带来了一种新型的攻击向量——提示词注入攻击。此外，由于大语言模型庞大的参数量以及极其复杂的行为，它们本身面临着被各种越狱模板攻破的风险。

首先，刘艺探讨了提示词注入攻击对于大语言模型的的威胁性。他们研究团队提出了一种新型的黑盒提示词注入攻击技术，包含注入提示词诱导上下文分区并注入恶意有效负载。通过这一技术他们揭示了前所未有的严重攻击后果，包括应用中的珍贵提示词窃取，以及语言模型的无限制滥用等。

接着，刘艺分享了他们团队关于大语言模型越狱攻击的调研、评测和深入研究。他们对多个网络平台上常见的越狱模板进行了收集和归纳，然后在不同场景下评估了这些越狱模板的有效性。在他们最新的NDSS’24工作中，他们实现了一个自动化的端到端的大语言模型越狱框架。他们创新地利用黑盒模型响应的生成时间来逆向推导其背后的防御策略，并提出了基于大语言模型的自动化越狱模板生成方案。这项工作进一步揭露了大语言模型对越狱攻击的脆弱性。

刘艺的这些研究工作对当下火热的大语言模型在实际应用时面临的风险进行了全面的调研和深入的探讨。在报告结束时，实验室的老师和同学们也针对自己感兴趣的研究问题，与刘艺进行了热烈的交流和深入的讨论。

演讲者简介

刘艺，南洋理工大学计算机科学与工程学院博士研究生，师从国际软件工程领域知名专家刘杨教授。主要研究方向为大模型安全，软件测试等。

他的研究主要集中在大模型安全和软件测试，相关工作发表在USENIX、S&P、NDSS、ICSE、ASE等顶级国际会议上。在大模型安全上，他较早完成了越狱提示词的实证研究，并设计自动化越狱提示词生成方法。同时，在提示词注入方面，较早实现了对于集成大语言模型商业应用的攻击，并设计自动化提示词注入攻击工具。在软件测试中，他主导设计的RESTful API自主测试工具，获得华为云十大优秀技术合作项目奖，并已落地华为公司内部多个产品线应用，华为云对外商用邀测。

（转载自复旦白泽战队公众号）