估计很多人已经被刷到的Sora的视频惊艳到了,流畅的动画,连贯的场景,炫丽的运镜,这些本该是有丰富经验的设计师才能操刀的作品,被一个AI产品给生产了出来。
只能说,AI世界的变化,已经超脱了我们的想象。
到底这个AI产品有多么神奇,OpenAI官网上用了一句话来介绍它:
ntroducing Sora, our text-to-video model. Sora can generate videos up to a minute long while maintaining visual quality and adherence to the user’s prompt.
翻译成中文即是:
我们的文本转视频模型。Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
划重点,一个是质量,一个是遵守prompt。
无疑,这也是多数生成式AI最令人关注的东西,毕竟,人的掌控欲已经位列自然界天花板,他可不希望一个工具产品,能逃脱自己的控制。
sora的特点
Sora的特点很多,虽然没有具体体验到产品,但从官网的介绍视频中来看,可以归类为几点:
1、视频里的角色,运动,更符合真实的物理世界规律。
Sora不仅可以生成现实世界的场景,还能创造出丰富多彩、想象力丰富的奇幻世界。无论是现代城市街道、自然景观,还是科幻场景和抽象艺术,Sora都能够根据文本提示呈现出多样化的视频内容,满足不同用户的需求。
比如有个prompt:
Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge.
无人机拍摄的海浪拍击大苏尔加雷角海滩崎岖悬崖的景象。蔚蓝的海水激起白色的波浪,夕阳的金色光芒照亮了岩石海岸。远处有一座小岛,岛上有一座灯塔..
大家看效果视频,除了有对应上的自然风景,最奇特的是海浪的波动效果。
这个浪花,在经过演示的时候,会产生一些因为碰撞导致的海浪涟漪,尽管并没有完美契合岩石的形状,但是这个行为,已经在视频里体现了出来。尽可能地还原大自然的世界。
或许大家都知道。真实世界的物理运动规律,最大的特点是,自然。运动都会有一个流线型的轨迹。而Sora演示的视频里,也符合了这一个特点。
有一个Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的情况。
仔细看视频里两只海盗船的运动,你会发现,它随着咖啡液体的上下翻滚,船只始终随着起伏,运动轨迹保持一致。
尽管船体上的细节不如人意,比如水漫过船体的时候,甲板上始终没有一丝痕迹,船帆也没有明显的起伏感觉。
但这毕竟是一个开始。
2、对语言的理解上升到人类情感层面。
情感是一个复杂的词汇,喜怒哀乐是智慧动物的标配。那么如何去看一个机器是否真的理解到情感。或许下面这个视频的例子是一个很好的开端。
Sora用了这样一个prompt:
Prompt: A cat waking up its sleeping owner demanding breakfast. The owner tries to ignore the cat, but the cat tries new tactics and finally the owner pulls out a secret stash of treats from under the pillow to hold the cat off a little longer.
提示:一只猫叫醒熟睡的主人,要求吃早餐。主人试图忽视这只猫,但猫尝试了新的策略,最后主人从枕头下拿出秘密藏匿的零食,让猫再呆一会儿。
猫儿在打扰主人睡觉的时候, 视频里的女人会逐渐表现出一种不耐烦的情绪,眉头会因为猫抓时而紧皱,时而舒展。
不过这里有一个瑕疵,猫在伸手抓的时候,提起的前爪很明显在某一个瞬间切换了手。
3、多镜头以及滤镜效果。
如果要给视频的质感设定几个指标,我想除了高质量的图片之外,运镜也能拍得上位置。
一个丝滑的运镜效果,往往能把观众带入到视频要体现的意境之中。
从发布的视频里看,Sora在这个特点上,是发挥的超出想象。
这是一只斑点狗在窗台之间移动的视频,整个视频在播放的过程中,你可以看到镜头一直给到斑点狗,随着它在两个窗台之间的走动,镜头也一直在平缓的移动,让关注的视觉一直落在狗的身上。
如果让我们拍视频,这个看起来很简单,拿着稳定器跟着物体移动就可以,但这是AI。
当然,Sora并非没有缺点,甚至是OpenAI自己都给它列出来几个。
The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.
The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.
当前的模型存在弱点。它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。
该模型还可能会混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。
这个因果关系,在前面几个视频里,仔细看一下都可以发现,比如猫伸出爪子的时候,两只爪子重叠到了一边。斑点狗运镜的视频里,可以看到虽然狗在移动的时候,镜头很丝滑,但是细一看,门窗在狗移动的时候,没有丝毫的碰撞痕迹。就像一个无效的图层一般。
实际上,窗台凸起的部分,在真实世界里,这只斑点狗应该无法移动过去。
和GPT类似,Sora也是用的是transformer结构,可以说融合了 DALL·E 和 GPT 模型的研究。
不过目前Sora还处于一个演示的状态,只对一些 red teamers成员以及邀请的领域专家可用。
正如它官网所说的,这是一个潜力无限的文生视频工具,但同时,它也需要确保生产的内容,能够符合当下的政策。
毕竟工具是死的,而用的人是活的。