AnimateDiff：无个性化文本到图像扩散模型制作动画

AI风向标2年前 (2023)更新小蝶@葫芦娃AI

9.7K 0 0

AnimateDiff

这是一个高效框架，能进一步将生成的静态图像生成动画。随着文本到图像模型（例如稳定扩散）和相应的个性化技术（例如 DreamBooth 和 LoRA）的进步，每个人都可以以可承受的成本将他们的想象力转化为高质量的图像。随后，对图像动画技术的需求很大，以进一步将生成的静态图像与运动动态相结合。

我们提出了一个实用的框架，可以一劳永逸地对大多数现有的个性化文本到图像模型进行动画处理，从而节省模型特定调整的工作量。所提出框架的核心是将新初始化的运动建模模块插入到冻结的文本到图像模型中，并在视频剪辑上对其进行训练，以提取合理的运动先验。

一旦训练完毕，只需注入这个运动建模模块，所有源自同一基础 T2I 的个性化版本都很容易成为文本驱动的模型，产生多样化和个性化的动画图像。我们对跨动漫图片和现实照片的几个具有代表性的个性化文本到图像模型进行了评估，并证明我们提出的框架可以帮助这些模型生成时间平滑的动画剪辑，同时保留其输出的领域和多样性。证明我们提出的框架可以帮助这些模型生成时间平滑的动画剪辑，同时保留其输出的领域和多样性。

项目摘要

随着像 Stable Diffusion 这样的文本转图像模型及 LoRA 和 DreamBooth 等个性化技巧的发展，现在每个人都可以轻松地以实惠的价格把自己的想象力转化成高质量图片。随之而来的是，市场上对能将静态图像与动态元素相结合的图像动画技术的需求也日益增长。在这个项目中，我们推出了一个高效框架，能一次性为多数现有的个性化文本到图像模型加入动画效果，这样就无需为每个特定模型进行微调。

这个框架的核心思想是在已冻结的基础文本到图像模型中加入一个新初始化的动态建模模块，然后在视频片段上进行训练，以学习到合适的动态规律。一旦训练完成，只需简单地插入这个动态建模模块，所有基于同一基础模型派生出的个性化版本都能立即转换为由文本驱动，能产生多样且个性化动画图像的模型。

终于有时间尝试了一下这几天开放的SD视频生成项目Animatediff，下面是视频，卧槽这也太强了。

新版还支持镜头控制，可以说是本地版本的Pika了。生成的视频比Pika清晰多了，而且比Runway要稳定很多，再加上SD强大的模型支持，这还用啥Pika。

就是比较吃算力512的视频36帧4070ti要四五分钟。

https://51xiaoqu.feishu.cn/docx/WUeqdM6wfoEPbbxO42pcRPBunec#GP4sdqqK1oXbe9xdxWbcAKEVnsX

方法

随着文本到图像模型（例如稳定扩散）和相应的个性化技术（例如LoRA和DreamBooth）的进步，每个人都可以以可承受的成本将他们的想象力转化为高质量的图像。随后，对图像动画技术的需求很大，以进一步将生成的静止图像与运动动态相结合。我们提出了一个有效的框架，可以一次性对大多数现有的个性化文本到图像模型进行动画处理，从而节省模型特定调整的工作量。

所提出框架的核心是将新初始化的运动建模模块附加到基于冻结的文本到图像模型，并随后在视频剪辑上对其进行训练，以提取合理的运动先验。一旦经过训练，通过简单地注入这个运动建模模块，所有源自同一基础的个性化版本很容易成为文本驱动的模型，产生多样化和个性化的动画图像。

补充

在这里，我们使用相同的模型显示相同的提示的结果，证明我们的方法没有破坏原始模型的多样性