摘要: Openai一直在研究视频生成模型Sora。结果并不完美 – 但是它们是我们见过的更好的例子。
OpenAI发布能从文本生成视频的AI模型Sora
OpenAI近日发布了名为Sora的生成式AI模型,可以根据文本描述或静态图像生成1080p的电影场景,包括多个角色、不同类型的动作和背景细节。Sora还可以“扩展”现有的视频片段,尽力填补缺失的细节。
OpenAI在博客中写道:“Sora对语言有深入的理解,能够准确解读提示并生成充满活力的角色,表达丰富的情感。该模型不仅理解用户在提示中要求的内容,还了解这些内容在物理世界中的存在方式。”
Sora可以生成多种风格的视频,包括逼真的、动画的和黑白的,长度可达一分钟,远超大多数文本到视频模型。这些视频保持了合理的连贯性,不会出现“AI怪异”的情况,比如物体以不可能的方式移动。
以下是由Sora生成的一段艺术画廊的导览视频(忽略画质的问题):
还有这个花朵绽放的动画:
不过,Sora生成的一些具有人形主题的视频,比如机器人站在城市背景或人在雪地小径上行走,有一种电子游戏的感觉,可能是因为背景中没有太多活动。此外,一些视频中也会出现“AI怪异”的情况,比如车辆先前进后倒退,或者手臂融入被子。
OpenAI承认Sora并不完美,它写道:
“Sora可能在准确模拟复杂场景的物理过程上遇到困难,也可能无法理解具体的因果关系。例如,一个人可能咬一口饼干,但之后饼干上可能没有咬痕。模型还可能混淆提示的空间细节,例如混淆左右方向,并且可能难以精确描述随时间发生的事件,比如按照特定的摄像机轨迹进行跟踪。”
OpenAI将Sora定位为研究预览版,没有公开提供。其理由是担心被滥用,OpenAI指出,恶意使用者可以以各种方式滥用Sora这样的模型。
OpenAI表示正在与专家合作,探索模型的漏洞,并建立工具来检测视频是否由Sora生成。该公司还表示,如果决定将该模型打造成面向公众的产品,将确保生成的输出中包含来源元数据。
OpenAI写道:“我们将与全球的政策制定者、教育工作者和艺术家进行交流,了解他们的关切,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但我们无法预测人们将如何以及滥用我们的技术的方式。这就是为什么我们相信,从实际使用中学习是创建和发布越来越安全的AI系统的关键组成部分。”