AIGC技术：当人工智能遇上创作

热门头条2年前 (2023)发布残剑@葫芦娃AI

5.2K 0 0

AIGC技术：当人工智能遇上创作

一、AIGC的历史

AIGC（Artificial Intelligence Generated Content）是一种使用人工智能生成内容的技术，包括了GPT和其他GAI等?。它们可以创造图像、文本、视频、音乐等数字内容。AIGC的发展可以分为三个阶段。

1.1 基于深度学习的AIGC生成模型
在1950年代，随着隐马尔可夫模型(HMM)和高斯混合模型 (GMM)的发展，基于深度学习的AIGC生成模型在人工智能领域崭露头角。然而，直到深度学习的出现，生成模型的性能才得到显着改善。在早期的深度生成模型中，不同领域之间的重叠性并不多。在自然语言处理（NLP）领域，传统的句子生成方法是使用N-gram语言建模来学习单词分布，然后搜索最佳序列。但是，这种方法不能有效地适应长句子。为了解决这个问题，循环神经网络 (RNN)被引入用于语言建模任务，允许建模相对较长的依赖关系。随后又发展出长短期记忆 (LSTM)和门控循环单元 (GRU)，它们利用门控机制在训练期间控制记忆。这些方法能够处理大约200个标记的样本，相较于N-gram语言模型有了显著的改进?。在计算机视觉（CV）领域，传统的图像生成算法使用纹理合成和纹理映射等技术，但由于这些算法是基于手工设计的特征，所以生成的图像能力有限。而在2014年，生成对抗网络 (GANs)的出现，标志着CV领域的重要里程碑，因为它在各种应用中取得了很多成果。此外，还有变分自动编码器 (VAE)和扩散生成模型等其他方法，进一步提高了图像生成的控制和质量。

1.2 基于Transformer的AIGC生成模型
在不同领域中，AIGC的发展遵循着不同的路径，但最终汇聚到了Transformer架构。Transformer是由Vaswani等人提出的。在NLP领域，许多著名的大型语言模型，如BERT和GPT，都采用了Transformer作为主要构建模块，相较于以前的方法具有更多优势。在CV领域，Vision Transformer(ViT)和Swin Transformer通过将Transformer架构与视觉组件结合，进一步推动了AIGC技术在图像领域的应用。

1.3 基于prompt learning的AIGC
近年来，研究人员还引入了一些新的技术?。例如，在NLP中，人们更喜欢prompt learning而不是finetune。prompt learning指的是在提示中包含从数据集中选择的几个示例，以帮助模型更好地理解任务要求。随着AIGC的不断发展，我相信未来会引入更多的技术，为这一领域注入更多活力。

二、火热项目

2.1 Stable diffusion

Stable diffusion是由慕尼黑大学的CompVis小组开发的一种开源潜在扩散模型。与其他模型相比，它的主要区别在于使用了潜在扩散模型，并且可以在潜在空间中执行图像修改操作。你可以通过他们的网站使用Stable Diffusion的API。Stable Diffusion由文本编码器和图像生成器两部分组成，图像生成器完全在潜在空间中工作，这使得它比以前在像素空间中工作的扩散模型更快。Stable diffusion的开源代码非常丰富，大家可以根据自己的需求安装源码部署在自己的主机上。

2.2 DreamFusion

DreamFusion是由Google Research开发的一种文本到3D模型的技术?。它使用预训练的2D文本到图像扩散模型来实现文本到3D合成。与以前的技术不同，DreamFusion采用从2D扩散模型中提取的损失，取代了以前的CLIP技术。DreamFusion的模型可以用作一般连续优化问题中的损失，以生成样本。它使用可微分的生成器来解决在参数空间中采样的问题。与其他方法不同，DreamFusion侧重于创建从随机角度渲染时看起来像好的图像的3D模型。该模型可以创建从特定角度创建的图像，也可以生成从其他文本提示生成的所有变体。如果想要查看完整的动画图像，建议访问DreamFusion的网页。