微软推出了新的Azure AI工具,旨在帮助开发人员解决生成式人工智能(gen AI)的安全性和可靠性问题。这些工具不仅可以防止自动幻觉问题,还可以防范安全漏洞,如提示注入攻击,从而增强了企业开发LLM应用的信心。
随着对生成式人工智能的需求不断增长,对其安全和可靠部署的关注也日益突出。企业希望确保他们为内部或外部使用而开发的大型语言模型(LLM)应用能够提供最高质量的输出,而不会涉足未知领域。
在意识到这些问题后,微软今天宣布推出新的Azure AI工具,允许开发人员解决自动幻觉(与gen AI相关的一个常见问题)以及安全漏洞的问题,例如提示注入,其中模型被欺骗生成个人或有害内容 —— 就像从微软自己的AI图像创建器生成的Taylor Swift深度伪造图像一样。
微软提供了什么:新工具一览
随着LLM的兴起,提示注入攻击变得更加突出。本质上,攻击者可以更改模型的输入提示,以绕过模型的正常操作,包括安全控制,并操纵它以揭示个人或有害内容,从而危及安全或隐私。这些攻击可以通过两种方式进行:直接方式,攻击者直接与LLM交互;间接方式,涉及使用第三方数据源,如恶意网页。
为了解决这两种形式的提示注入,微软正在向Azure AI添加Prompt Shields,这是一种全面的能力,使用先进的机器学习(ML)算法和自然语言处理来自动分析提示和第三方数据的恶意意图,并阻止它们达到模型。
除了努力阻止安全和安全威胁的提示注入攻击之外,微软还引入了工具,专注于gen AI应用的可靠性。这包括用于安全中心系统消息的预构建模板和一种名为“Groundedness Detection”的新功能。
据微软解释,前者允许开发人员构建引导模型行为朝向安全、负责任和数据基础输出的系统消息。后者使用经过调优的定制语言模型来检测模型产生的文本输出中的幻觉或不准确材料。这两者都将适用于Azure AI Studio和Azure OpenAI服务。
值得注意的是,用于检测基础性的度量标准还将伴随着自动化评估,以对gen AI应用进行风险和安全的压力测试。这些评估将衡量应用程序被越狱并产生任何类型的不当内容的可能性。评估还将包括自然语言解释,以指导开发人员如何为问题构建适当的缓解措施。
最后,在应用程序投入生产时,微软将提供实时监控,以帮助开发人员密切关注触发安全功能(如Prompt Shields)的输入和输出。该功能将适用于Azure OpenAI服务和AI Studio,并生成详细的可视化,突出显示被阻止的用户输入/模型输出的数量和比率,以及按严重程度/类别分类的情况。
利用这种级别的可见性,开发人员将能够了解随时间推移的有害请求趋势,并调整其内容过滤器配置、控件以及更广泛的应用程序设计,以增强安全性。