摘要:
文本到视频系统将书面文字转换为动态视觉效果。现在,Zeroscope将这项技术作为免费软件提供。
Zeroscope源于Modelscope,这是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。Zeroscope完善了这一概念,提供了更高的分辨率,没有Shutterstock水印,并且更接近16:9的纵横比。
Zeroscope具有两个组件:Zeroscope_v2 567w,旨在以576×320像素的分辨率快速创建内容,以探索视频概念。然后可以使用zeroscope_v2 XL将高质量的视频升级到1024×576的“高清”分辨率。以下演示视频中的音乐是在后期制作中添加的。
对于视频生成,该模型需要 7.9 GB 的 VRam,分辨率为 576×320 像素,帧速率为 30 帧/秒,15.3 GB 的 VRam,分辨率为 1024×576 像素,相同帧速率。因此,较小的型号应在许多标准图形卡上运行。
Zeroscope的训练涉及应用于9,923个剪辑和29,769个标记帧的偏移噪声,每个帧包含24个帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微失真。
训练期间的这种噪声引入增强了模型对数据分布的理解。因此,该模型可以生成更多样化的逼真视频,并更有效地解释文本描述中的变体。
这可能是Runway的开源竞赛吗?
根据具有Modelscope经验的Zeroscope开发人员“Cerspense”的说法,使用24 GB的VRam微调模型并不是“超级困难”。他在微调过程中删除了Modelscope水印。
他将自己的模型描述为“旨在与Gen-2竞争”,这是Runway ML提供的商业文本到视频模型。根据Cerspense的说法,Zeroscope是完全免费的,供公众使用。
AI艺术家和开发人员“dotsimulate”在他的youtube的视频中展示了更多ZeroscopeXL生成的视频示例。?
https://www.youtube.com/@dotsimulate/videos
567w和Zeroscope v2 XL都可以从Hugging Face免费下载,其中还提供了如何使用它们的说明。Colab的Zeroscope版本包括教程,可在此处获得。
文本到视频技术的发展速度能否像文本到图像一样快?
文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长,并且有许多视觉缺陷。然而,图像AI模型最初面临类似的问题,但在几个月内就实现了照片级真实感。但与这些模型不同的是,视频生成在训练和生成方面都更加耗费资源。
谷歌已经推出了Phenaki和Imagen Video,这两种文本到视频模型能够生成高分辨率,更长,逻辑上连贯的剪辑,尽管它们尚未发布。Meta的Make-a-Video,一种文本到视频的模型,也仍未发布。
目前,只有Runway的Gen-2可以商用,现在可以在iPhone上买到。Zeroscope标志着第一个高质量开源模型的出现。
Summary 总结
- Zeroscope是一款免费的开源软件,利用文本到视频技术将书面描述转换为高质量的视频。它改进了Modelscope,提供了更高的分辨率,没有水印,并且与基本模型相比更接近16:9的纵横比。
- 该软件包括两个组件:Zeroscope_v2 567w用于以较低分辨率快速创建内容,zeroscope_v2 XL用于将内容升级到高清分辨率。
- Zeroscope是Runway的Gen-2等商业模式的潜在开源竞争对手。它代表了高质量、开源文本到视频模型的开始,这项技术仍处于早期阶段,但具有类似于文本到图像模型的快速发展潜力。