OpenAI发布Sora，支持60s长视频，更高质量视频，更容易听懂人话

估计很多人已经被刷到的Sora的视频惊艳到了，流畅的动画，连贯的场景，炫丽的运镜，这些本该是有丰富经验的设计师才能操刀的作品，被一个AI产品给生产了出来。

只能说，AI世界的变化，已经超脱了我们的想象。

到底这个AI产品有多么神奇，OpenAI官网上用了一句话来介绍它：

ntroducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.

翻译成中文即是：

我们的文本转视频模型。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

划重点，一个是质量，一个是遵守prompt。

无疑，这也是多数生成式AI最令人关注的东西，毕竟，人的掌控欲已经位列自然界天花板，他可不希望一个工具产品，能逃脱自己的控制。

sora的特点

Sora的特点很多，虽然没有具体体验到产品，但从官网的介绍视频中来看，可以归类为几点：

1、视频里的角色，运动，更符合真实的物理世界规律。

Sora不仅可以生成现实世界的场景，还能创造出丰富多彩、想象力丰富的奇幻世界。无论是现代城市街道、自然景观，还是科幻场景和抽象艺术，Sora都能够根据文本提示呈现出多样化的视频内容，满足不同用户的需求。

比如有个prompt：

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge.

无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪，夕阳的金色光芒照亮了岩石海岸。远处有一座小岛，岛上有一座灯塔..

大家看效果视频，除了有对应上的自然风景，最奇特的是海浪的波动效果。

这个浪花，在经过演示的时候，会产生一些因为碰撞导致的海浪涟漪，尽管并没有完美契合岩石的形状，但是这个行为，已经在视频里体现了出来。尽可能地还原大自然的世界。

或许大家都知道。真实世界的物理运动规律，最大的特点是，自然。运动都会有一个流线型的轨迹。而Sora演示的视频里，也符合了这一个特点。

有一个Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.

逼真的特写视频，展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。

仔细看视频里两只海盗船的运动，你会发现，它随着咖啡液体的上下翻滚，船只始终随着起伏，运动轨迹保持一致。

尽管船体上的细节不如人意，比如水漫过船体的时候，甲板上始终没有一丝痕迹，船帆也没有明显的起伏感觉。

但这毕竟是一个开始。

2、对语言的理解上升到人类情感层面。

情感是一个复杂的词汇，喜怒哀乐是智慧动物的标配。那么如何去看一个机器是否真的理解到情感。或许下面这个视频的例子是一个很好的开端。

Sora用了这样一个prompt：

Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.

提示：一只猫叫醒熟睡的主人，要求吃早餐。主人试图忽视这只猫，但猫尝试了新的策略，最后主人从枕头下拿出秘密藏匿的零食，让猫再呆一会儿。

猫儿在打扰主人睡觉的时候，视频里的女人会逐渐表现出一种不耐烦的情绪，眉头会因为猫抓时而紧皱，时而舒展。

不过这里有一个瑕疵，猫在伸手抓的时候，提起的前爪很明显在某一个瞬间切换了手。

3、多镜头以及滤镜效果。

如果要给视频的质感设定几个指标，我想除了高质量的图片之外，运镜也能拍得上位置。

一个丝滑的运镜效果，往往能把观众带入到视频要体现的意境之中。

从发布的视频里看，Sora在这个特点上，是发挥的超出想象。

这是一只斑点狗在窗台之间移动的视频，整个视频在播放的过程中，你可以看到镜头一直给到斑点狗，随着它在两个窗台之间的走动，镜头也一直在平缓的移动，让关注的视觉一直落在狗的身上。

如果让我们拍视频，这个看起来很简单，拿着稳定器跟着物体移动就可以，但这是AI。

当然，Sora并非没有缺点，甚至是OpenAI自己都给它列出来几个。

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark. The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.

当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体实例。例如，一个人可能咬了一口饼干，但之后饼干可能没有咬痕。

该模型还可能会混淆提示的空间细节，例如混淆左右，并且可能难以精确描述随着时间推移发生的事件，例如遵循特定的相机轨迹。

这个因果关系，在前面几个视频里，仔细看一下都可以发现，比如猫伸出爪子的时候，两只爪子重叠到了一边。斑点狗运镜的视频里，可以看到虽然狗在移动的时候，镜头很丝滑，但是细一看，门窗在狗移动的时候，没有丝毫的碰撞痕迹。就像一个无效的图层一般。

实际上，窗台凸起的部分，在真实世界里，这只斑点狗应该无法移动过去。

和GPT类似，Sora也是用的是transformer结构，可以说融合了 DALL·E 和 GPT 模型的研究。

不过目前Sora还处于一个演示的状态，只对一些 red teamers成员以及邀请的领域专家可用。

正如它官网所说的，这是一个潜力无限的文生视频工具，但同时，它也需要确保生产的内容，能够符合当下的政策。

毕竟工具是死的，而用的人是活的。