谷歌发布先进AI视频生成器"Lumiere"，可创造逼真滑稽的动物场景

概要： 谷歌于1月25日发布了最新的AI视频生成器"Lumiere"，号称是"实现逼真视频生成的时空扩散模型"。然而，更引人注目的是它在创造可爱动物在滑稽场景中的表现方面表现出色，如滑轮滑板、开车或弹钢琴。该技术使用独特的架构，能够一次性生成整个视频的时间序列，而不是采用传统的逐帧合成方式。

谷歌最新发布的AI视频生成器"Lumiere"在技术和创造性方面迈出了重要的一步。这一先进的文本到动物视频生成器能够以惊人的方式将可爱的动物放入不可思议的场景中，如滑轮滑板、开车或弹钢琴。虽然它的应用远不止于此，但在文本到动物视频生成领域，Lumiere可能是迄今为止最先进的模型。

根据谷歌的介绍，Lumiere采用了独特的时空U-Net架构，能够一次性生成整个视频的时间序列，而不是采用传统的逐帧合成方式。这意味着该技术可以同时处理视频中物体的空间位置和时间变化，而不是将视频拆分成许多小部分或帧来生成。

在技术层面上，Lumiere的应用非常广泛。除了将文字转化为视频外，它还可以将静止图像转化为视频，根据参考图像生成特定风格的视频，使用基于文本的提示进行一致的视频编辑，通过动画化图像的特定区域创建电影画面，以及提供视频修补的能力，比如更改一个人穿着的服装类型。

然而，尽管Lumiere在技术上取得了显著的进展，但其输出仍然被谷歌描述为"低分辨率"，视频长为5秒，分辨率为1024×1024像素。研究人员在用户研究中声称，尽管存在这些限制，Lumiere的输出在用户喜好上超过了现有的AI视频合成模型。

在Lumiere研究论文中，谷歌研究人员并未详细说明训练数据的来源，仅表示他们在包含30M视频及其文本说明的数据集上训练了该模型。这一点可能引起一些关注，因为对于这样一个先进的模型来说，训练数据的质量和多样性至关重要。

值得关注的是，AI生成的视频目前仍处于初级阶段，但在过去两年中质量不断提高。Lumiere之前，谷歌曾发布过Imagin Video，Meta推出了Make-A-Video，而Runway的Gen2视频合成模型也在不断创新。然而，以可爱的动物为例，而非人类，是因为生成真实、非变形的人类仍然具有一定难度，而我们对人体或其移动方式的任何缺陷都非常敏感。

随着文本到视频合成模型的不断进步，我们不禁思考这对以分享媒体为中心的互联网社会的未来影响。特别是"逼真"视频往往被认为代表由摄像机捕捉的真实物体在真实情境中的情况。比Lumiere更强大的未来视频合成工具将使深度伪造变得轻而易举，为此，Lumiere的研究人员在论文的"社会影响"部分写道："我们在这项工作中的主要目标是使新手用户能够以创造性和灵活的方式生成视觉内容。然而，我们认识到我们的技术存在被滥用以创建虚假或有害内容的风险，我们相信开发和应用工具以检测偏见和恶意用例是至关重要的，以确保安全和公平的使用。" 这也引发了社会对于这类技术可能被滥用的担忧，尤其是在深度伪造变得越来越容易的今天。