Adobe将人工智能生成的图像包含在“商业安全”的萤火虫训练集中_科技速览

生成式人工智能(AI)图像创建者越来越受欢迎，但它们的使用也引发了关于训练数据集中版权材料的争论。现在，关于Adobe Firefly(该公司对Midjourney和DALL-E等生成式人工智能工具的回应)的新信息使对话进一步复杂化。

与其他图像生成器一样，Firefly可以根据用户输入的文本提示创建视觉内容、矢量图像、文本效果等。但Adobe已经将Firefly定位为该领域的异类，因为它的数据集，该公司吹嘘它是一种质量控制。

同时:最好的AI图像生成器，现在尝试

作为图像生成器基础的大型语言模型(llm)需要数十亿张图像才能工作。适当地授权这么多内容是昂贵的，而这种规模的计算已经很昂贵了，这意味着公司被激励着从互联网上抓取免费内容，而不向创作者致谢或提供补偿。流行的文本生成器，包括ChatGPT，也以这种方式训练，使用从网络上抓取的语言样本。

人工智能公司因以这种方式收集数据而受到越来越多的审查。像Getty这样的艺术家和组织起诉了Stable Diffusion和Midjourney，称其许可不当。去年12月，《纽约时报》起诉OpenAI和微软使用其成果来训练ChatGPT。

Adobe的网站表示，与竞争对手的产品相比，Firefly在“商业上是安全的”，因为它经过了“授权内容(如Adobe Stock)和版权过期的公共领域内容”的培训。Adobe甚至为某些Stock贡献者制定了补偿计划，这些贡献者的内容被用于培训该工具的第一次迭代。

然而，彭博社周五报道称，Firefly大约5%的训练数据是由Midjourney等竞争对手创建的人工智能生成的。这些内容进入了Firefly的数据集，因为创作者可以将人工智能生成的图像提交到Adobe的股票市场，作为Adobe计划的一部分，他们得到了补偿。

对于Adobe来说，在称赞其数据集比竞争对手更严格之后，使用合成内容似乎是违反直觉的。虽然法律上没有要求公开训练数据，但这一细节使人们对Adobe质量声明的有效性产生了怀疑，特别是考虑到这些图像是使用现在受到版权攻击的工具创建的。

尽管披露了这一消息，Adobe仍坚称它对数据集进行了质量控制。Adobe的一位发言人告诉彭博社:“提交给Adobe Stock的每张图片，包括一小部分由人工智能生成的图片，都经过严格的审核过程，以确保它不包含知识产权、商标、可识别的字符或标识，也不涉及艺术家的名字。”

这一发现指出了公开信息和内部通信之间的差异。彭博社发现，Adobe Stock的一位艺术家关系经理在Discord社区发帖称，Firefly离开测试版后，将使用一个没有生成人工智能的新训练数据库。但在该工具公开发布后，另一位Adobe员工在Discord上表示，人工智能生成的图像“增强了我们的数据集训练模型，我们决定将这些内容包含在商业发布版本的Firefly中。”

该公司似乎在更普遍的合成内容和需要许可的特定元素之间划清了界限，但这一领域很模糊。Firefly的用户将来是否会遇到版权问题还有待观察。鉴于生成图像生成的新生性质，可以肯定地说，使用任何这些工具创建内容都存在一定程度的法律风险。