概要:OpenAI最新发布的视频生成模型Sora展示出了令人惊叹的影视制作能力,并具备模拟数字世界的潜力。该模型不仅能够生成视频,还能够根据输入的提示模拟出各种数字环境,如《Minecraft》中的游戏场景。尽管Sora在某些方面存在局限性,但其技术仍然具有巨大的潜力,可能为基于文本描述生成更为逼真的游戏带来革命性的改变。
随着人工智能技术的不断发展,OpenAI最新发布的视频生成模型Sora引起了业界的广泛关注。这款模型不仅能够生成令人印象深刻的影视作品,还具备模拟数字世界的潜力,展现出了无限的可能性。
根据OpenAI的研究人员在最新发布的技术论文中透露的内容,Sora具有多项令人瞩目的特性。首先,Sora能够生成任意分辨率和长宽比(最高1080p)的视频。其次,Sora还能执行各种图像和视频编辑任务,如创建循环视频、延长视频时间轴以及更改视频背景等。最引人注目的是,Sora还具备模拟数字世界的能力。通过输入“Minecraft”等关键词提示,Sora能够模拟出类似《Minecraft》游戏的界面、游戏动态以及物理效果,并且能够同时控制玩家角色,呈现出令人惊叹的仿真效果。
那么,Sora是如何实现这一切的呢?据Nvidia的高级研究员Jim Fan观察,Sora更像是一个“数据驱动的物理引擎”而不是一个创意工具。它不仅仅是生成单个照片或视频,而是根据每个环境中物体的物理属性进行计算,并基于这些计算呈现照片、视频或交互式3D世界。
尽管Sora在视频游戏领域也展现出了强大的潜力,但它仍然存在一些局限性。例如,模型无法准确地模拟玻璃破碎等基本交互的物理效果。即使是一些可以模拟的交互,Sora也常常表现不一致,例如渲染一个人吃汉堡但却未能呈现咬痕。
然而,如果理解论文的内容正确的话,Sora似乎为基于文本描述生成更为逼真甚至是逼真的程序化游戏铺平了道路。这既令人兴奋,也令人担忧(例如,考虑到深度伪造技术的影响),这也许是为什么OpenAI目前选择将Sora限制在非常有限的访问计划背后的原因。