2024-02-23 13:19

微软向公众发布其内部生成人工智能红队工具

尽管生成式人工智能(gen AI)模型具有先进的功能,但我们已经看到了许多例子,它们变得流氓,产生幻觉,或者存在恶意行为者可以利用的漏洞。为了缓解这一问题,微软推出了一款工具,可以帮助识别生成式人工智能系统中的风险。

周四,微软发布了用于生成式人工智能的Python风险识别工具包(PyRIT),这是微软人工智能红队一直在使用的工具,用于检查包括副驾驶在内的通用人工智能系统的风险。

在过去的一年里,微软红队了60多个高价值的人工智能系统,通过这些系统,微软了解到这些系统的红队过程与经典人工智能或传统软件有很大不同。

这个过程看起来不同,因为除了负责任的人工智能风险之外,微软还必须考虑常见的安全风险,比如确保有害内容不会被故意生成,或者模型不会输出虚假信息。

此外,新一代AI模型在架构上差异很大,从相同的输入中产生的结果也存在偏差,这使得很难找到一个适合所有模型的流线型过程。

因此,手动探测所有这些不同的风险最终会成为一个耗时、乏味和缓慢的过程。微软认为,自动化可以通过识别需要更多关注的风险区域和自动化日常任务来帮助红队,这就是PyRIT的作用所在。

“经过微软人工智能团队实战测试”的工具包会向生成式人工智能系统发送恶意提示,一旦收到回应,其评分代理就会给系统一个分数,该分数用于根据之前的评分反馈发送新的提示。

微软表示,PyRIT最大的优势在于,它帮助微软红队提高了工作效率,大大缩短了完成任务所需的时间。

微软在发布会上表示:“例如,在我们对副驾驶系统进行的一次红队演习中,我们能够在几小时内选择一个危害类别,生成数千个恶意提示,并使用PyRIT的评分引擎来评估副驾驶系统的输出,而不是几周。”

该工具包现在就可以访问,其中包括一系列演示,以帮助用户熟悉该工具。微软还举办了一个关于PyRIT的网络研讨会,演示如何在红队生成人工智能系统中使用PyRIT,您可以通过微软网站注册。

相关推荐