DeepMind Genie 2：开启 3D 互动世界生成新纪元

谷歌旗下的人工智能研究机构 DeepMind 推出了 Genie 2 模型，它能够创造出各式各样可玩的 3D 世界。这一模型是今年早些时候发布的 Genie 的升级版。它可以依据单张图像与文字描述（比如 “树林里的可爱人形机器人”）生成实时互动场景，与李飞飞所在公司 World Labs 以及以色列初创公司 Decart 正在开发的模型有相似之处。

DeepMind 宣称 Genie 2 能生成极为丰富多样的 3D 世界，在这些世界里，用户能用鼠标或键盘进行跳跃、游泳等操作。通过视频训练，该模型能够模拟物体交互、动画、光照、物理效果、反射以及 “非玩家角色（NPC）” 的行为。许多 Genie 2 生成的模拟场景与 3A 级电子游戏相似，原因或许是其训练数据包含了热门游戏的通关视频。然而，出于竞争或其他因素，DeepMind 像许多人工智能实验室一样，并未透露太多数据来源的细节。这就引发了知识产权方面的疑问：Genie 2 是否在未经授权的情况下复制了它所 “观看” 的电子游戏内容？这恐怕要由法院来裁决了。

DeepMind 表示 Genie 2 能生成具有不同视角（如第一人称视角和等距视角）且持续时间可达一分钟的连贯世界，其中大部分能持续 10 到 20 秒。例如，它能智能地响应键盘按键操作，准确识别角色并移动。像大多数同类模型一样，Genie 2 模拟游戏和 3D 环境时也存在瑕疵、一致性以及幻觉相关的问题。不过，Genie 2 能够记住模拟场景中不在视野内的部分，并在它们再次可见时准确渲染（World Labs 的模型也具备此能力）。

目前用 Genie 2 创造的游戏并不那么有趣，因为它大约每分钟就会清除游戏进度。所以 DeepMind 更多地将该模型定位为研究与创意工具，用于制作 “互动体验” 原型以及评估人工智能体。借助 Genie 2 的分布外泛化能力，概念艺术图和绘画能够转化为完全互动的环境，研究人员可以利用它快速为人工智能体创建丰富多样的环境，从而生成人工智能体在训练期间未曾见过的评估任务。

创意工作者，尤其是电子游戏行业的人员对此感受颇为复杂。《连线》杂志近期的一项调查发现，像动视暴雪这样解雇了大量员工的大型游戏公司正在使用人工智能走捷径、提高生产力并弥补人员流失。尽管如此，谷歌仍不断加大对世界模型研究的投入，这有望成为人工智能领域的下一个重大突破。

今年 10 月，DeepMind 聘请了曾领导 OpenAI 的 Sora 视频生成器开发的蒂姆・布鲁克斯，致力于视频生成技术和世界模拟器的研究。两年前，该实验室还从 Meta 挖来了蒂姆・罗克塔舍尔，他因在《NetHack》等电子游戏中的 “开放性” 实验而闻名。