谷歌的VLOGGER人工智能模型可以从图像中生成视频化身——会出什么问题呢?_科技速览

人工智能(AI)社区已经非常擅长制作假的运动图像——看看OpenAI上个月推出的Sora，它有一个巧妙的假想飞行画面——人们不得不问一个聪明而实用的问题:我们应该如何处理所有这些视频?

本周，谷歌学者Enric Corona和他的同事们给出了答案:用我们的VLOGGER工具控制它们。VLOGGER可以根据一张照片生成人们谈话的高分辨率视频。更重要的是，VLOGGER可以根据语音样本制作视频动画，这意味着该技术可以将视频动画为一个受控的人的肖像——一个高保真的“化身”。

这个工具可以实现各种各样的创作。在最简单的层面上，科罗娜的团队认为，VLOGGER可能会对帮助台的化身产生重大影响，因为更逼真的合成人可以“培养同理心”。他们认为，这项技术可以“实现全新的用例，比如增强在线交流、教育或个性化虚拟助理。”

可以想象，VLOGGER还可以引领深度伪造的新领域，即看似真实的肖像，可以说和做真人从未做过的事情。Corona的团队打算在补充支持材料中提供对VLOGGER的社会影响的考虑。但是，该材料在项目的GitHub页面上不可用。ZDNET联系了科罗娜，询问有关支持材料的问题，但截至发稿时尚未收到回复。

正如正式论文《VLOGGER:虚拟化身合成的多模态扩散》所描述的那样，Corona团队的目标是克服虚拟化身目前的不准确性。科罗娜的团队写道:“制作逼真的人类视频仍然很复杂，而且充满了人工制品。”

该团队指出，现有的视频化身通常会裁剪掉身体和手，只显示脸。VLOGGER可以显示整个躯干以及手部动作。其他工具通常对面部表情或姿势的变化有限，只能提供基本的假唱。VLOGGER可以生成“头部和上身运动的高分辨率视频[…]，具有相当多样的面部表情和手势”，并且是“在给定语音输入的情况下生成说话和移动的人类的第一种方法”。

正如研究团队所解释的那样，“我们在这项工作中所追求的正是自动化和行为现实主义:VLOGGER是一个多模态界面，可以连接到一个具体化的对话代理，配备了音频和动画视觉表示，具有复杂的面部表情和不断增加的身体运动水平，旨在支持与人类用户的自然对话。”

VLOGGER汇集了深度学习的一些最新趋势。

多模态融合了人工智能工具可以吸收和合成的多种模式，包括文本和音频、图像和视频。

像OpenAI的GPT-4这样的大型语言模型使得使用自然语言作为驱动各种动作的输入成为可能，无论是创建文本段落、歌曲还是图片。

近年来，研究人员还发现了许多通过改进“扩散”来创建逼真图像和视频的方法。这个术语来自分子物理学，指的是随着温度的升高，物质粒子如何从高度集中在一个区域变得更加分散。通过类比，数字信息的比特可以被视为“漫射”，它们与数字噪声越不连贯。

AI扩散将噪声引入图像并重建原始图像以训练神经网络以找到构建图像的规则。扩散是Stability AI的Stable Diffusion和OpenAI的DALL-E中令人印象深刻的图像生成过程的根源。这也是OpenAI在Sora中制作精美视频的方式。

对于VLOGGER，科罗娜的团队训练了一个神经网络，将演讲者的音频与该演讲者的单独视频帧联系起来。该团队结合了从音频中重建视频帧的扩散过程，使用了另一项最新创新，变压器。

Transformer使用注意力方法根据过去发生的帧来预测视频帧，并结合音频。通过预测动作，神经网络学会一帧一帧地呈现准确的手和身体动作以及面部表情，与音频同步。

最后一步是使用来自第一个神经网络的预测，随后使用同样采用扩散的第二个神经网络来生成高分辨率视频帧。第二步也是数据的高水位标志。

为了制作高分辨率的图像，科罗娜的团队编制了MENTOR，这是一个包含80万个人们说话视频“身份”的数据集。MENTOR由2200小时的视频组成，该团队声称这使其成为“迄今为止在身份和长度方面使用的最大数据集”，比以前的可比数据集大10倍。

作者发现，他们可以通过一个被称为“微调”的后续步骤来增强这一过程。通过向VLOGGER提交一段完整的视频，在它已经在MENTOR上进行了“预训练”之后，他们可以更真实地捕捉到一个人的头部运动的特质，比如眨眼:“通过用更多的数据微调我们的扩散模型，在一个对象的单目视频上，VLOGGER可以学习更好地捕捉身份，例如当参考图像显示眼睛是闭着的时候，”团队将这个过程称为“个性化”。

这种方法——将一个神经网络中的预测与高分辨率图像联系起来，也是VLOGGER引人注目的地方——更大的意义在于，该程序不仅仅是生成视频，就像Sora所做的那样。VLOGGER将视频链接到可以控制的动作和表情。它的栩栩如生的视频可以像木偶一样被操纵。

科罗娜的团队写道:“我们的目标是弥合最近的视频合成技术之间的差距。视频合成技术可以生成不受身份或姿势控制的动态视频，而图像生成方法则是可控的。”

VLOGGER不仅可以是一个声音驱动的化身，而且还可以引导编辑功能，例如改变说话对象的嘴或眼睛。例如，一个在视频中经常眨眼的虚拟人可以被改变为眨眼一点点或根本不眨眼。大嘴巴说话的方式可以缩小为嘴唇的更离散的运动。

在模拟人类方面取得了新成就后，Corona团队没有解决的问题是，世界应该对任何滥用该技术的行为抱有什么样的期望。很容易想象一个政治人物说一些绝对灾难性的事情，比如即将发生的核战争。

据推测，虚拟化身游戏的下一个阶段将是神经网络，就像电影《银翼杀手》(Blade Runner)中的“沃伊特-坎普夫测试”(Voight-Kampff test)一样，它可以帮助社会识别哪些说话者是真实的，哪些只是举止非常逼真的伪造者。

谷歌的VLOGGER人工智能模型可以从图像中生成视频化身——会出什么问题呢?

相关推荐