Zeroscope｜一种大强的文本生成高清视频的模型，旨在与Gen-2竞争

11.5K 0 0

摘要：

文本到视频系统将书面文字转换为动态视觉效果。现在，Zeroscope将这项技术作为免费软件提供。

Zeroscope源于Modelscope，这是一个具有17亿个参数的多级文本到视频扩散模型。它根据文本描述生成视频内容。Zeroscope完善了这一概念，提供了更高的分辨率，没有Shutterstock水印，并且更接近16：9的纵横比。

Zeroscope具有两个组件：Zeroscope_v2 567w，旨在以576×320像素的分辨率快速创建内容，以探索视频概念。然后可以使用zeroscope_v2 XL将高质量的视频升级到1024×576的“高清”分辨率。以下演示视频中的音乐是在后期制作中添加的。

对于视频生成，该模型需要 7.9 GB 的 VRam，分辨率为 576×320 像素，帧速率为 30 帧/秒，15.3 GB 的 VRam，分辨率为 1024×576 像素，相同帧速率。因此，较小的型号应在许多标准图形卡上运行。

Zeroscope的训练涉及应用于9，923个剪辑和29，769个标记帧的偏移噪声，每个帧包含24个帧。偏移噪声可能涉及视频帧内对象的随机移动、帧时序的轻微变化或轻微失真。

训练期间的这种噪声引入增强了模型对数据分布的理解。因此，该模型可以生成更多样化的逼真视频，并更有效地解释文本描述中的变体。

这可能是Runway的开源竞赛吗？

根据具有Modelscope经验的Zeroscope开发人员“Cerspense”的说法，使用24 GB的VRam微调模型并不是“超级困难”。他在微调过程中删除了Modelscope水印。

他将自己的模型描述为“旨在与Gen-2竞争”，这是Runway ML提供的商业文本到视频模型。根据Cerspense的说法，Zeroscope是完全免费的，供公众使用。

AI艺术家和开发人员“dotsimulate”在他的youtube的视频中展示了更多ZeroscopeXL生成的视频示例。?

https://www.youtube.com/@dotsimulate/videos

567w和Zeroscope v2 XL都可以从Hugging Face免费下载，其中还提供了如何使用它们的说明。Colab的Zeroscope版本包括教程，可在此处获得。

文本到视频仍处于起步阶段。人工智能生成的剪辑通常只有几秒钟长，并且有许多视觉缺陷。然而，图像AI模型最初面临类似的问题，但在几个月内就实现了照片级真实感。但与这些模型不同的是，视频生成在训练和生成方面都更加耗费资源。

谷歌已经推出了Phenaki和Imagen Video，这两种文本到视频模型能够生成高分辨率，更长，逻辑上连贯的剪辑，尽管它们尚未发布。Meta的Make-a-Video，一种文本到视频的模型，也仍未发布。

目前，只有Runway的Gen-2可以商用，现在可以在iPhone上买到。Zeroscope标志着第一个高质量开源模型的出现。

Zeroscope是一款免费的开源软件，利用文本到视频技术将书面描述转换为高质量的视频。它改进了Modelscope，提供了更高的分辨率，没有水印，并且与基本模型相比更接近16：9的纵横比。
该软件包括两个组件：Zeroscope_v2 567w用于以较低分辨率快速创建内容，zeroscope_v2 XL用于将内容升级到高清分辨率。
Zeroscope是Runway的Gen-2等商业模式的潜在开源竞争对手。它代表了高质量、开源文本到视频模型的开始，这项技术仍处于早期阶段，但具有类似于文本到图像模型的快速发展潜力。