Stable Diffusion遇上强化学习：新方法改善了无需训练数据的绘画AI模型

Stable Diffusion2年前 (2023)发布雪碧@葫芦娃AI

16.7K 0 0

Stable Diffusion遇上强化学习：新方法改善了无需训练数据的绘画AI模型

【摘要导读】

* 伯克利人工智能研究（BAIR）的研究人员正在使用强化学习来进一步优化图像的生成AI模型。
* 在测试中，去噪扩散策略优化（DDPO）已被证明在优化（不）压缩性、美学质量和提示图像对齐方面是有效的。
* 该方法不需要训练数据，为基于AI的图像合成开辟了新的可能性，但需要进一步探索。

Stable Diffusion遇上强化学习 – 演示如何在下游任务中有效地训练图像的生成 AI 模型。?

扩散模型最近已成为生成复杂高维输出的事实标准。您可能知道它们能够产生令人惊叹的 AI 艺术和超逼真的合成图像，但它们在其他应用中也取得了成功，例如药物设计和连续控制。

扩散模型背后的关键思想是将随机噪声迭代转换为样品，例如图像或蛋白质结构。这通常是作为最大似然估计问题而激发的，其中模型被训练以生成尽可能与训练数据匹配的样本。

在训练期间，扩散模型学习从训练数据以增量方式重建内容。研究人员现在正试图使用强化学习来微调生成AI模型以实现特定目标，例如提高图像的美学质量，从而干预这一过程。这是受到大型语言模型的微调的启发，比如OpenAI的GPT。

强化学习以获得更美观的图像？

然而，扩散模型的大多数用例并不直接涉及匹配训练数据，而是与下游目标有关：研究小组不仅想要一个看起来像现有图像的图像，而且想要一个具有特定类型外观的图像；不仅想要一个物理上合理的药物分子，而且想要一个尽可能有效的药物分子。

研究展示了如何使用强化学习（RL）直接在这些下游目标上训练扩散模型。他们在各种物镜上微调了Stable Diffusion，包括图像可压缩性、人类感知的美学质量和提示图像对齐。这些目标中的最后一个使用来自大型视觉语言模型的反馈来提高模型在不寻常提示下的性能，展示了如何使用强大的 AI 模型来相互改进，而无需任何人参与循环。

降噪扩散策略优化

当将扩散转化为RL问题时，他们只做最基本的假设：给定一个样本（例如图像），可以访问一个奖励函数，可以评估该函数以告诉我们该样本有多“好”。目标是让扩散模型生成最大化此奖励函数的样本。

扩散模型通常使用从最大似然估计（MLE）派生的损失函数进行训练，这意味着鼓励它们生成使训练数据看起来更有可能的样本。在RL设置中，不再有训练数据，只有来自扩散模型的样本及其相关奖励。但仍然可以使用相同的 MLE 动机损失函数的一种方法是将样本视为训练数据，并通过根据其奖励对每个样本的损失进行加权来合并奖励。这提供了一种算法，他们称之为奖励加权回归（RWR），以RL文献中的现有算法命名。

但是，这种方法存在一些问题。一是RWR不是一个特别精确的算法——它只使奖励最大化（参见Nair等人，附录A）。MLE启发的扩散损失也不是精确的，而是使用每个样本真实可能性的变分界限得出的。这意味着 RWR 通过两个近似级别最大化奖励，发现这会显着损害其性能。

噪扩散策略优化（DDPO）的关键见解是：

如果注意到达那里的去噪步骤的整个序列，可以更好地最大化最终样本的奖励。为此，将扩散过程重新构建为多步马尔可夫决策过程（MDP）。在MDP术语中：每个去噪步骤都是一个动作，当产生最终样本时，代理只有在每个去噪轨迹的最后一步才能获得奖励。该框架允许应用RL文献中的许多强大算法，这些算法是专门为多步MDP设计的。这些算法不使用最终样本的近似似然，而是使用每个去噪步骤的确切似然，这非常容易计算。

研究人员选择应用策略梯度算法，因为它们易于实现，并且过去在语言模型微调方面取得了成功。这导致了DDPO的两种变体：DDPO SF ，它使用政策梯度的简单评分函数估计器，也称为REINFORCE;和 IS DDPO，它使用更强大的重要性抽样估计器。DDPO IS 是我们性能最好的算法，其实现方式紧随近端策略优化（PPO）的实现。

使用DDPO微调Stable Diffusion

研究小组对于上面的成果，使用DDPO微调稳定扩散v1-4 IS 。进行四个任务，每个任务由不同的奖励函数定义

团队在四个任务上训练Stable Diffusion：

可压缩性：使用 JPEG 算法压缩图像的难易程度如何？奖励是图像另存为 JPEG 时的负文件大小（以 kB 为单位）。

不可压缩性：使用 JPEG 算法压缩图像的难度有多大？奖励是图像在另存为 JPEG 时的正文件大小（以 kB 为单位）。

美学质量：图像对人眼的审美吸引力如何？奖励是LAION美学预测器的输出，这是一个根据人类偏好训练的神经网络。

提示图像对齐：图像如何很好地表示提示中要求的内容？这个有点复杂：我们将图像输入LLaVA，要求它描述图像，然后使用BERTScore计算该描述与原始提示之间的相似性。

由于Stable Diffusion是一个文本到图像模型，还需要选择一组提示在微调期间给出它。对于前三个任务，使用“a（n） [animal]”形式的简单提示。对于提示图像对齐，使用“a（n）[动物][活动]”形式的提示，其中活动是“洗碗”，“下棋”和“骑自行车”。发现，Stable Diffusion通常难以生成与这些异常场景的提示相匹配的图像，因此RL微调有很大的改进空间。

首先，研究小组说明了DDPO在简单奖励（可压缩性，不可压缩性和美学质量）上的表现。所有图像都是使用相同的随机种子生成的。在左上象限，说明了Stable Diffusion为九种不同的动物产生的“香草”；所有RL微调模型都显示出明显的质差异。有趣的是，美学质量模型（右上）倾向于极简主义的黑白线条图，揭示了LAION美学预测器认为“更美观”的图像类型。

接下来，在更复杂的提示图像对齐任务上演示 DDPO。在这里，小组展示了训练过程中的几个快照：
每个系列的三个图像显示了一段时间内相同提示和随机种子的样本，第一个样本来自香草Stable Diffusion。有趣的是，该模型转向更像卡通的风格，这不是故意的。假设这是因为在预训练数据中，做类似人类活动的动物更有可能以类似卡通的风格出现，因此模型转向这种风格，以便通过利用它已经知道的东西更容易与提示保持一致。

意外的泛化

当使用RL微调大型语言模型时，已经发现了令人惊讶的泛化：

例如，仅在英语中对指令遵循进行微调的模型通常会在其他语言中得到改善。发现文本到图像扩散模型也发生了同样的现象。例如，美学质量模型使用从45种常见动物列表中选择的提示进行微调。发现它不仅适用于看不见的动物，也适用于日常物品。

小组的提示图像比对模型在训练期间使用了45只常见动物的相同列表，并且只有三种活动。发现，它不仅适用于看不见的动物，也适用于看不见的活动，甚至是两者的新组合。

过度优化

众所周知，对奖励函数（尤其是学习函数）进行微调会导致奖励过度优化，其中模型利用奖励函数以无用的方式实现高奖励。研究小组的设置也不例外：在所有任务中，模型最终会破坏任何有意义的图像内容以最大化奖励。

还发现LLaVA容易受到排版攻击：当优化与“[n]动物”形式的提示对齐时，DDPO能够通过生成松散类似于正确数字的文本来成功欺骗LLaVA。

目前还没有防止过度优化的通用方法，我们将这个问题作为未来工作的重要领域。

Summary 总结

*在产生复杂的高维输出时，扩散模型是难以匹敌的。但是，到目前为止，它们大多在应用程序中取得成功，这些应用程序的目标是从大量数据（例如，图像标题对）中学习模式。研究小组发现的是一种有效训练扩散模型的方法，其方式超越了模式匹配，而不一定需要任何训练数据。可能性仅受奖励功能的质量和创造力的限制。

*在这项工作中使用DDPO的方式受到最近语言模型微调成功的启发。OpenAI的GPT模型，如稳定扩散，首先是在大量的互联网数据上进行训练的;然后用RL对它们进行微调，以产生有用的工具，如GPT。通常，他们的奖励功能是从人类的偏好中学习的，但其他人最近已经想出了如何使用基于AI反馈的奖励功能来产生强大的聊天机器人。与聊天机器人制度相比，我们的实验规模较小，范围有限。但考虑到这种“预训练+微调”范式在语言建模中的巨大成功，在扩散模型领域似乎值得进一步追求。研究小组希望其他人可以在他们的工作基础上改进大型扩散模型，不仅用于文本到图像生成，还用于许多令人兴奋的应用，例如视频生成，音乐生成，图像编辑，蛋白质合成，机器人等。

*“预训练+微调”范式并不是使用DDPO的唯一方法。只要你有一个好的奖励函数，没有什么能阻止你从一开始就使用 RL 进行训练。虽然这个环境尚未被探索，但这是一个DDPO优势真正可以大放异彩的地方。纯强化学习长期以来一直应用于各种领域，从玩游戏到机器人操作，从核聚变到芯片设计。将扩散模型的强大表现力添加到组合中，有可能将RL的现有应用提升到一个新的水平，甚至发现新的应用。