微软发布内部生成式AI红队工具（red teaming tool）供公众使用

706次阅读

概要：
微软发布了Python风险识别工具包(PyRIT)，这是一个用于生成式AI系统的红队测试工具，可帮助识别潜在风险。这项工具已在微软AI红队内部使用，经过了实战检验。

微软发布Python风险识别工具包(PyRIT)
微软发布了Python风险识别工具包(PyRIT)，用于生成式AI系统的红队测试。这项工具是微软AI红队用来检查其生成式AI系统风险的工具之一，其中包括Copilot。
PyRIT的工作原理
PyRIT可以生成数千个恶意提示，以测试生成式AI模型，并评分其响应。它通过向生成式AI系统发送恶意提示，然后使用评分代理给系统打分，再根据以前的评分反馈发送新的提示，从而识别潜在的风险。
微软红队对生成式AI系统的挑战
微软在过去一年对60多个高价值的生成式AI系统进行了红队测试。他们发现，与传统AI或传统软件相比，对这些系统进行红队测试的过程存在巨大差异。这是因为微软不仅要考虑通常的安全风险，还要考虑到负责任的AI风险，例如确保不能有意地生成有害内容，或者模型不会输出虚假信息。
PyRIT的优势
微软表示，PyRIT的最大优势在于它帮助微软的红队工作更加高效，显著缩短了任务所需的时间。例如，在对一个Copilot系统进行红队测试时，他们能够在几个小时内而不是几周内选择一个有害类别，生成数千个恶意提示，并使用PyRIT的评分引擎评估Copilot系统的输出。
工具的可用性
PyRIT工具包现已提供，用户可以立即访问，并包含一系列演示以帮助用户熟悉该工具。此外，微软还将举办有关PyRIT的网络研讨会，演示如何在生成式AI系统的红队测试中使用它，用户可以通过微软的网站注册参加。