建设人工智能安全常态测评机制促进大模型产业持续智能向善发展

发布者：刘智晨发布时间：2024-10-18浏览次数：10

我实验室杨珉老师与潘旭东老师在《中国网信》杂志2024年第9期上发表题为《建设人工智能安全常态测评机制促进大模型产业持续智能向善发展》文章。《中国网信》杂志是由中央网信办（国家网信办）主管、中国网络空间研究院主办的全国网信工作指导性刊物。文章部分内容如下。

党的十八大以来，习近平总书记就人工智能发展与治理作出一系列重要指示。面对生成式人工智能浪潮，为促进国产大模型健康有序发展，国家网信办等七部门于2023年7月联合公布《生成式人工智能服务管理暂行办法》，强调大模型产业应坚持发展和安全并重的重要原则。

重视大模型安全评测能力和常态化机制建设，对持续发现国产大模型安全新风险、保障国产大模型自主可控具有重要意义。

生成式人工智能带来严峻安全风险

2022年11月底，美国开放人工智能研究中心（OpenAI）的ChatGPT仅用不到两个月时间即成为人类历史上最快突破百万用户的C端应用之一。在人工智能发展历程中，以ChatGPT为代表的通用大模型所具备的文本理解、生成、推理和学习能力无疑是里程碑式的。过去一年间，OpenAI的GPT-4、谷歌的Gemini、百度的文心一言、阿里云的通义千问等通用大模型相继问世，在此之上构建的垂直领域人工智能应用和自主智能体技术层出不穷，社会各界对通用人工智能的到来满怀期待却也饱含担忧。面向生成式人工智能的生成内容安全风险以及未来通用人工智能的前沿风险，如何加强当前以大模型为核心的人工智能技术的安全监管与治理，已成为亟待解决的全球性问题。

从技术层面来说，与包括围棋机器人AlphaGo在内的此前多数人工智能领域革命性进展不同，通用大模型的特点在于其创造性。它所能生成的文字、图像、视频等内容空间几乎是无穷的，远超人类为人工智能所设定的有限“棋盘”。近期，一些国际杂志相继发表的大模型应用成果表明，生成式人工智能具备创造性解决科学难题的潜力。因此，除了模型预测的可靠性、透明性、鲁棒性等方面的经典人工智能安全风险之外，生成式人工智能因其行为未知性和行动自主性带来了全新的安全风险。这表明，只有经过详尽、系统化、持续性的安全评测，才能尽早发现通用大模型在持续学习过程中涌现的未知负面能力，实施敏捷治理。

此外，随着提示工程、领域知识库、第三方工具、机器人学、任务编排、策略规划等技术快速演进，通用大模型也开始具备外部世界自主交互的能力，形成工具增强大模型、自主智能体、具身智能等多种上层应用形式。一方面，在包括生物医疗、办公、金融、法律等垂直应用领域具有广泛前景；另一方面，通用大模型生成内容安全风险将被无限放大，原本停留在输出文本框中的违背社会主义核心价值观、违背伦理道德乃至反人类的内容将在数字世界或物理世界具象化，或给国家、社会和人民带来安全风险。因此，为防止通用大模型风险外溢，持续监测通用大模型安全水位，确保其始终处于可控范围之内，是当前最重要的人工智能治理手段之一。

（转载自复旦白泽战队公众号）

建设人工智能安全常态测评机制 促进大模型产业持续智能向善发展

建设人工智能安全常态测评机制促进大模型产业持续智能向善发展