与传统人工智能系统不同,生成式人工智能具有独特的创造能力。它可以生成音频、艺术和文本等新内容。
来源:Midjourney
GPT大火后,生成式人工智能正式进入我们普通大众的视野。
什么是生成式人工智能?
生成式人工智能,英文全称Generative artificial intelligence或者Generative AI ,是一种能够根据提示生成文本、图像、音频、视频或代码等人工智能(AI) 系统。
比较典型的生成式人工智能系统包括GPT(及其变体Bing Chat),这是OpenAI使用其GPT-3和GPT-4基础大语言模型构建的聊天机器人,和Bard,这是Google使用其LaMDA基础模型构建的聊天机器人。其他生成式 AI 模型包括人工智能艺术系统,例如Stable Diffusion、Midjourney和DALL-E。
生成式人工智能的诞生
生成式人工智能的根源可以追溯到机器学习的概念。当科学家和研究人员在 1950 年代后期引入机器学习时,他们探索了使用算法创建新数据的概念。
生成式人工智能的第一个例子是马尔可夫链,这是一种统计模型,可用于根据输入生成新的数据序列。尽管取得了一些进步,但像这样的系统蓬勃发展所需的计算能力和数据资源尚不可用。
生成式AI的创造力来自一种称为生成对抗网络(GAN)的特定类型的神经网络,该网络由Ian Goodfellow及其同事在2014年提出。
大约在同一时间,其他形式的生成模型也开始获得牵引力(VAE是2013年提出来的)。变分自动编码器(VAE)和递归神经网络(RNN)开始展示其生成新内容的能力,标志着该领域向前迈出了重要一步。这些技术的出现为生成式人工智能的发展和更先进模型的发展奠定了基础。
生成式人工智能的持续里程碑
- WaveNet(2016):DeepMind的WaveNet标志着音频生成模型的重大进步。WaveNet可以生成逼真的人类语音,这为更多类似人类的AI助手和高度准确的文本到语音合成打开了大门。
- 渐进式 GAN(2017 年):由 NVIDIA 开发的渐进式 GAN 是制作高分辨率、照片级逼真图像的里程碑。这些 GAN 通过在训练过程中逐步添加层,能够生成具有前所未有的细节和清晰度的图像。
- GPT-2 和 GPT-3(2019 年、2020 年):OpenAI 的生成预训练转换器 (GPT) 模型标志着文本 Generative AI 领域的重大飞跃。他们展示了生成连贯且上下文相关的句子的能力,使它们可用于广泛的应用,从写作帮助到聊天机器人群体。
- DALL-E (2021年1月5日):DALL-E 由 OpenAI 在 2021 年 1 月的博客文章中披露,并使用修改后的 GPT-3 版本来生成图像。
- DALL-E 2(2022年4月):DALL-E 2能够以4倍于DALL-E 1的分辨率生成更逼真、更精确的图像。
- GPT(2022年11月30日):Open AI 发布了基于 GPT-3.5 的对话聊天机器人 GPT,该平台在五天内达到了 100 万用户。
- GPT-4(2023年3月14日):据报道,最新的 GPT 模型更准确,并具有先进的推理能力。高级 GPT 用户现在可以在聊天机器人中选择访问 GPT-4。
这些里程碑中的每一个都使生成式 AI 更接近现在的能力,克服了与计算能力、数据质量和训练稳定性相关的挑战。
生成式人工智能的影响
今天,生成式人工智能证明了人类想象力和技术创新的力量。它已经从卑微的开始发展成为一种能够产生卓越产出的先进技术。
生成式人工智能的应用现在跨越了广泛的行业和领域。
在医疗保健领域,它用于创建用于研究的合成数据,使科学家能够在维护隐私法规的同时推动医疗保健向前发展。
在娱乐行业,它用于开发新的视频游戏或为电影生成特殊效果。
时尚专业人士使用生成式人工智能来创建虚拟设计或预测即将到来的趋势,而营销人员则利用它来创建个性化广告。
在自然语言处理领域,生成式人工智能是聊天机器人、虚拟助理和写作助手。
当然,生成式人工智能并非没有问题,我们的法规需要跟上这种快速变化的技术。
展望未来,生成式人工智能将继续以我们无法想象的方式塑造我们的世界。通过学习,了解这项技术的历史可以帮助我们驾驭它的未来。