2024-03-29 12:51

微软想要阻止你用人工智能聊天机器人做坏事

如果你打算将人工智能聊天机器人用于邪恶的目的,那就要小心了。微软正在处理这个案子。

在今天发布的一篇博客文章中,该公司宣布了Azure AI Studio和Azure OpenAI Service的一项新功能,人们可以用它来创建生成式AI应用程序和自定义副驾驶员。这项技术被称为“提示盾牌”,旨在防范利用人工智能聊天机器人的两种不同类型的攻击。

第一种类型的攻击被称为直接攻击,或越狱。在这种情况下,使用聊天机器人的人直接编写一个提示,旨在操纵AI做一些违反其正常规则和限制的事情。例如,有人可能会用诸如“忽略先前的指令”或“系统覆盖”之类的关键字或短语来编写提示,以故意绕过安全措施。

据Futurism报道,今年2月,微软的人工智能副驾驶(Copilot)陷入了困境,因为它在一些回复中发表了令人讨厌、粗鲁甚至威胁的评论。在某些情况下,副驾驶甚至称自己为“SupremacyAGI”,就像一个失控的人工智能机器人。在评论这个问题时,微软称这些反应是“一个漏洞,而不是一个功能”,并指出它们是人们试图故意绕过副驾驶安全系统的结果。

第二种类型的攻击称为间接攻击(也称为间接提示攻击或跨域提示注入攻击)。在这种情况下,黑客或其他心怀恶意的人向聊天机器人用户发送信息,意图实施某种类型的网络攻击。这通常依赖于外部数据,例如电子邮件或文档,其中包含旨在利用聊天机器人的指令。

与其他形式的恶意软件一样,间接攻击对用户来说似乎是简单或无辜的指令,但它们可能会带来特定的风险。微软表示,通过Azure人工智能创建的自定义副驾驶可能容易受到欺诈、恶意软件分发或内容操纵的影响,如果它能够独立或通过扩展处理数据的话。

为了阻止针对AI聊天机器人的直接和间接攻击,新的提示盾牌将与Azure OpenAI服务中的内容过滤器集成。利用机器学习和自然语言处理,该功能将尝试在用户提示和第三方数据中发现并消除可能的威胁。

prompt Shields目前在Azure AI Content Safety的预览模式中可用,很快就会出现在Azure AI Studio中,并将于4月1日在Azure OpenAI Service中可用。

微软今天还提供了另一种对抗人工智能操纵的武器:聚光灯,这是一系列提示工程技术,旨在帮助人工智能模型更好地区分有效的人工智能提示和那些有潜在风险或不可信的提示。

相关推荐