AI revolution｜里程碑- OpenAI 新上线地表最强视频模型 Sora

Unis

24 Dec 2024 — 5 min read

Open AI最新发布的Sora，一个输入文本就可以转视频的模型。Sora能够生成长达一分钟的视频，同时保持视觉质量并遵循用户的提示。话不多说我们先来看几个官方发布的大作！

先看一下提示词为：这是一幅画面，从空中俯瞰着大苏尔（Big Sur）加雷角海滩（Garay Point Beach）陡峭的悬崖，海浪冲击着崎岖的岩石。蓝色的海水被拍打成了白色浪尖，而落日的金色光芒照亮了岩石海岸。远处有一座带有灯塔的小岛，岩石边缘长满了绿色的灌木丛。从公路到海滩的陡峭坡度令人叹为观止，悬崖的边缘伸出到海面上。这是一幅捕捉到海岸的原始美丽和太平洋海岸公路（Pacific Coast Highway）崎岖景观的画面。

目的是让sora生成大苏尔的美景视频，效果如下

可以说完成度超级高了，甚至比实地还要更美～

还有这个猛犸象，也是完全不输好莱坞电影特效制作吧。

看到这里，还不足以证明Sora的强大。再来看几个长一点的～

海底纸艺世界这种奇怪的脑洞都诠释的很好

描绘加州淘金热的画面

spaceman这个真的毫无之前的AI合成感你懂

好了重磅的来了，就是接下来这个长达一分钟的视频！重点是它没有经过任何修改。看看提示词的表现程度：一位时尚的女士穿过一条东京街道，街道上充满了温暖发光的霓虹灯和动态城市标志。她穿着一件黑色皮夹克、一条长长的红色连衣裙和黑色靴子，手提着一个黑色的手袋。她戴着墨镜，涂着红色的口红，自信而随意地行走着。街道是潮湿的，反射着色彩斑斓的灯光，形成了镜面效果。许多行人在街上穿行。

这个真的惊艳了，不仅就是很自然，重点是毫无修改，一键生成了一分钟！

难怪Open在官宣的时候非常自豪地说——咱们Sora呀，它可以生成具有多个角色、特定运动类型和准确背景细节的复杂场景。模型不仅理解用户在提示中要求的内容，还能理解这些内容在现实世界中的存在方式。Sora模型具有强大的理解和生成能力，能够以更贴近真实世界的方式呈现复杂的场景。在技术术语上，这涉及到自然语言处理（NLP）、生成式对抗网络（GAN）和深度学习等领域的知识。随即又展示了很多Sora做的视频，用作品说话！一起来看看～

这个不说我真的会以为是实拍的程度……完美还原意大利南部坎帕尼亚大区的阿马尔菲海岸线

还有这个好牛啊

同时呈现50s'sci-fi电影，恐怖电影，新闻，70s'情景喜剧。。。好家伙你要我画都不一定画的全

另外，Sora还可以在单个生成的视频中创建多个镜头，准确地保持角色和视觉风格。话不多说用作品碾压竞品了。。

嗯，反正我逛博物馆拍出来的比这个抖。。

然后这个赛博时代小机器人

这个运镜，这个分镜。。

好了一篇文章只能发10个视频，想explore更多的可以去官网看一下，非常震撼！

最后说到了Sora目前可能在准确模拟复杂场景尚存困难，也可能无法理解特定的因果关系实例。比如，一个人可能会咬一口饼干，但之后，饼干上可能没有咬痕；另外还可能混淆提示的空间细节，比如混淆左右方向，并且可能在描述随时间发生的事件时遇到困难，比如追踪特定的摄像机轨迹。当然现在这个呈现我已经觉得很棒棒啦，先说这么多我去研究一下Sora的technical report下篇再展开聊聊它的模型，机理和讨论。