自从 GPT-4 发布以来,媒体高度关注 OpenAI 和其内外部相关人士,重要角色的视频、播客和文章访谈频频出现。为了节省读者时间,我们整理了过去几周传播较广的 10 篇/支访谈内容,以问题梳理,以下是整理后的内容。
访谈对象包括:
Sam Altman: OpenAI CEO
Ilya Sutskever: OpenAI 联合创始人,首席科学家
Greg Brockman: OpenAI 联合创始人,董事长兼 CTO
Geoffrey Hinton: 认知心理学家和计算机科学家,2018 年图灵奖获得者,「人工智能教父」
Bill Gates: 微软联合创始人
张铮: 亚马逊云科技上海人工智能研究院院长、上海纽约大学计算机系终身教授
Trinkle: OpenAI 第一位硕士毕业应届生员工,曾参与 GPT 训练工作
文章目录
1. GPT 的底层模型是怎样的?
2. 神经网络和 AI 的关系?
3. 神经网络是如何构建 GPT 的?
4. LLM 是仅仅填字游戏,还是真的理解语言?
5. 为什么 GPT 的回答会出现事实性错误?
6. 对齐(alignment)是什么?为什么要对齐?
7. GPT-4 目前的缺陷是什么?
8. OpenAI 是如何开展 GPT 研究的?
9. GPT-4 是通过打游戏训练的?
10. AGI 的未来在哪里?
11. GPT 如何影响人类世界?
12. AI 可以替代人类吗?
13. AI 会有自我意识吗?
14. 大模型和小模型有什么区别?
01
GPT 的底层模型是怎样的?
注:首先,需要明确的是 GPT 和 GPT 之间的区别。GPT 是一个神经网络机器学习模型,可以处理各种语言处理任务。GPT 是一个较小的专用模型,专为聊天应用程序设计。虽然这两种模型都基于相同的底层技术,但 GPT 是根据会话语言处理的特定需求量身定制的。
张铮:GPT 的基础是大语言模型,这些大模型本质上在训练的时候是在做接龙游戏——把下一页书给写出来——但它们有两点是远超人类的,第一是海量阅读,第二是其中有百分之十的数据是非常结构化的代码(以及代码周围的注释)。大致的结果就是模型中既存了知识(更准确的说是知识的碎片),又存了勾连知识碎片的逻辑,参数上大概是二比一这个样子。举例说,「着火了,赶紧跑」,这个动作的顺序是逻辑,「火」和「跑」是知识。我认为在大模型里面不存在纯粹脱离知识的逻辑,也不存在不被某种逻辑连带的知识,这两个加起来就是一个所谓世界模型(World Model)的雏形。这是一个大致准确的描述,大模型内部具体是如何工作的,学界都还没有一个定论。
Ilya Sutskever:当我们训练一个大型神经网络来预测互联网上许多不同文本中的下一个词时,我们所做的是学习一个「世界的模型」。表面上看起来我们只是在学习文本中的统计相关性,但实际上只是去学习文本中的统计相关性就可以把这些知识压缩*得非常好。
*压缩:压缩就是泛化,泛化能力越强,智能水平越高。泛化能力是指一个模型能够从训练数据中学到普遍规律,并能够将这些规律应用到新的、之前没有见过的数据上。GPT 预测下一个 token 的训练任务,等同于对训练数据进行无损压缩。
Trinkle:GPT 采用的是 RL——强化学习的方法来训练的。强化学习是从环境里面获取数据的,数据有可能是动态的。它有环境,它会根据不同的交互产生不一样的行为,然后针对不一样的行为,再去针对性的学习。而 Google 没有采用强化学习,而是给定一个 Label(标签),让它直接学。它的数据是静态的。成功的关键取决于数据。数据质量更好,就会更成功。
02
神经网络和 AI 的关系?
Ilya Sutskever:学界一般认为有两种途径来理解智能:一种是生物途径,其中每个大脑都是不同的,我们需要通过语言来在不同的大脑之间传递知识;另一种是目前的AI神经网络版本,你可以在不同的计算机上运行相同的模型,实际上它们可以共享连接权重,因此它们可以共享数十亿个数字。
因此就 AI 发展的两种思路来说,一种是主流 AI,另一种是关于神经网络的。主流 AI 认为,AI 是关于推理和逻辑的,而神经网络则认为,我们最好研究生物学,因为那些才是真正有效的东西。所以,主流 AI 基于推理和逻辑制定理论,而我们基于神经元之间的连接变化来学习制定理论。目前人工神经网络与大脑实际工作原理之间存在一定的分歧。
张铮:神经网络不应该是 AI 发展重点,一个智能体采取何种方式实现这样的功能,我认为有很大的偶然性,也有很大的自由度,所以不必拘泥于是用人工神经网络,还是用「汤汤水水」的脑神经元来实现。理想状态下机器应该作为人类的亲密小三,但不是基于材料的原因。
03
神经网络是如何构建 GPT 的?
注:在 GPT 的 T(Transformer) 出现之前,自然语言处理主要是由 Hinton 在 2006 年提出的深度学习概念,深度学习可以概括为特征的抽象和结果的预测。深度学习与神经网络密不可分,主要原因是神经网络模型可以使用误差反向传播算法,较好地解决了深度学习中的贡献度分配问题。经过多年的发展,问世了如卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、生成对抗网络(GAN)等经典的深度学习算法。2017 年,Transformer 架构的出现,再次开启了大语言模型快速发展时期。
Ilya Sutskever:在最开始时我们希望,如果有一个神经网络能预测下一个单词,它将解决无监督学习*的问题。但是用递归神经网络无法解决,当 Transformer 出来时,解决了递归神经网络的局限性。在 GPT 中,P 代表预训练。T 代表变换器,G 代表生成。生成模型为神经网络提供了更好的预训练*方法。
*无监督学习:使用机器学习算法来分析未标签化数据集并形成聚类。这些算法发现隐藏的模式或数据分组,无需人工干预。
*预训练:「预训练」的做法一般是将大量低成本收集的训练数据放在一起,经过某种预训方法去学习其中的共性,然后将其中的共性「移植」到特定任务的模型中,再使用相关特定领域的少量标注数据进行「微调」,这样的话,模型只需要从「共性」出发,去「学习」该特定任务的「特殊」部分即可。
神经网络所真正学习的,是生成文本的过程中的一些表述——文本实际上是这个世界的一个映射。因此,神经网络正在学习从越来越多的角度去看待这个世界,看待人类和社会,看人们的希望、梦想、动机、交互和所处情境。此外,你对下一个词的预测越准确,还原度越高,在这个过程中你得到的世界的分辨率就越高。这就是预训练阶段的作用。但是这并不能让神经网络表现出我们希望它能够表现出的行为。一个语言模型真正要做的是回答以下问题:如果我在互联网上有一些随机的文本,以一些前缀、一些提示开始,它将补全什么内容呢?可能(AI)只是随机地用互联网上的一些文本来补全它。
但一个真实的、有帮助的,遵循某些规则的助手,是需要额外的训练的。这就是微调和来自于人类老师的强化学习以及其他形式的人工智能协助可以发挥作用的地方。人类老师与 AI 一起合作去教导我们的 AI 模型,但不是教它新的知识, 而是与它交流和传达:我们希望它成为什么样。这就是第二阶段(强化学习)。这个过程做得越好,神经网络就越有用、越可靠,所以第二阶段也是极其重要的。
此外,Sam Altman 在 2022 年的活动访谈中曾表示,五年内(OpenAI/人工智能研究者)一定会找到比 Transformer 更好的方式。
04
LLM 仅仅是填字游戏,
还是真的理解语言?
Hinton:大模型不只是自动补全,补全的前提必须是理解句子的内容。
GPT 像一个「白痴天才」,它并不真正了解事实真相。它接受了大量不一致的数据训练,试图预测下一个网络用户会说什么。人们对很多事情有不同的观点,而它必须有一种混合所有这些观点的方式,以便可以模拟任何人可能说的话。这与一个试图拥有一致世界观的人非常不同,特别是如果你想在世界上采取行动,拥有一致的世界观是非常有益的。
GPT 知道的比任何一个人都多。如果有一个关于知识量的比赛,它会轻松击败任何一个人。它在智力竞赛中表现出色,可以写诗,但在推理方面并不擅长。
Ilya Sutskever:就模型只是学习统计规律,因此它们并不真正知道世界的本质这个观点,我并不赞同,我认为学习统计规律比看到表象要重要得多。预测也是一种统计现象。然而,要进行预测,你需要了解产生数据的基本过程。你需要更多地理解产生数据的这个世界。随着我们的生成模型变得非常出色,我认为它们将具有对世界惊人的理解程度,许多微妙之处也将变得清晰。这是通过文本(text)视角看到的世界。它试图通过人们在互联网上表达的文本将世界投影到文本空间中,以了解更多关于世界的信息。
GPT 已经知道它们需要知道的关于语言的潜在现实的一切。它们已经拥有这种语言的知识,同时也拥有关于产生这种语言的世界中所存在的各类过程的大量知识。
Sam Altman:这个系统真正令人惊叹的地方在于,它可以在某种程度上进行推理。当然我们可以对此进行争论,有很多定义是不准确的。但对于某些定义,它确实能做到一些推理,从吸收人类知识的过程中,它产生了这种「推理」能力。
Brockman:大语言模型发展的终极应该是能够真正理解微积分,并解决新的微积分问题。我们需要的不仅仅是语言模型,而是解释和推理的方法。
05
为什么 GPT 的回答会出现
事实性错误?
Sam Altman:首先,有些看起来应该很明显且容易的事情,模型却很难处理,计算字符、计算单词之类的东西对于这些模型来说是很难做好的。其次,我们把它推向公众,因为我们认为让世界尽早获得这项技术,对塑造它的发展方式、帮助我们发现事物的好坏是非常重要的。每次我们推出一个新模型,外部世界的集体智慧和能力帮助我们发现我们无法想象的事物。因此,这种迭代的过程,发现事物的优点和缺点,快速改进它们,让人们有时间感受这项技术,与我们共同塑造并提供反馈,我们认为这非常重要。
Ilya Sutskever:就目前 GPT 在使用中出现的一些事实性错误问题,神经网络有时候确实会产生幻觉(Hallucinations,特指人工智能给出的「事实性错误」)的倾向。这是因为语言模型很擅长学习世界,但它们不太擅长输出好的结果。这就是为什么,对于像 GPT 这样的系统,这样一种语言模型,需要进行额外的强化学习训练过程。我们称之为来自人类反馈的强化学习(RLHF)。
06
对齐(alignment)是什么?
为什么要对齐?
对齐问题:旨在使人工智能与人类价值观保持一致并遵循人类意图,这也是大模型通向安全、可靠的通用人工智能 (AGI) 所面临的巨大鸿沟,更是大模型的伦理和社会风险至今悬而未决的根源。RLHF(人类反馈强化学习,Reinforcement Learning from Human Feedback) 作为 GPT 的核心训练方式,被 OpenAI 宣称是能」有效提升通用人工智能系统与人类意图对齐的技术」。
张铮:和人类价值观对齐,也叫做「对齐税」(alignment tax),作为一个数学手段,是可操作的,OpenAI 也正是这么做的:回答没对齐,惩罚模型,对齐,就奖励,可以理解成驯化的一部分。这种对齐一定对模型的想象力带来约束,这是为什么「税」是一个特别准确的用词。但什么样的回答算对齐了?这没有数学上的定义,OpenAI 的论文中,花了超过一页的篇幅来说明他们怎么做对齐,大致上反映了那拨员工的价值观。如果现在让全世界来公投,能投出来一个更好的价值观来做对齐标准吗?我看也未必。
Sam Altman:如果我们能就我们希望 AI 学到的东西达成一致,那么模型就能学到很多东西。我的理想情况是,地球上的每个人都能一起进行深思熟虑的对话,讨论我们希望在这个系统上划定的边界。我们可以进行类似美国宪法制定的过程,就问题展开辩论,从不同的角度审视问题,说:「嗯,这在真空中是好的,但在现实中需要进行检查」。然后我们就会达成一致,这就是这个系统的总体规则。这是一个民主过程。我们没有人得到完全想要的,但大家都得到了感觉不错的东西。然后,我们和其他开发者构建一个内置这些规则的系统。在此基础上,不同的国家、不同的机构可以有不同的版本。因为在不同的国家关于言论自由的规则是不同的。然后,不同的用户想要非常不同的东西,那可以在他们所在国家允许的范围内实现。所以我们正在试图弄清楚如何促进这个过程。显然,正如所陈述的那样,这个过程是不切实际的。
07
GPT 目前的缺陷是什么?
Sam Altman:当 GPT 发布时,它所表现出来的偏见并不是我为之感到自豪的事情。我认为它有偏见,世界上永远不会有一个公认为无偏见的 GPT 版本。我们会尽量让默认版本尽可能中立,但如果要为每个人做到中立,那可能就不是那么中立了。所以,我认为真正的发展方向是让用户有更多的操控能力。
张铮:现在大模型回答的时候,基本上是过一遍脑,没有反刍、回溯、自我批评等功能,New Bing 在不确定的时候会去联网搜索,但那只是扩充资料,不过这都是学界知道的问题,包括我的团队都在进行探索。就目前来讲,要做到像小说那样把线头埋得那么多、那么远,能前后呼应,最后又能提得起来,大模型还有很远的路要走。
Trinkle:想象力的根源在于神经网络的一些随机性,而不是在于一些真正有一个东西叫创造力。没有的,其实很简单,只要你设置一个参数就好了,然后这个参数如果越大,然后它的随机性就越高,然后越小的话就越确定好的。我觉得目前的缺陷是中文的数据量不够造成的。你可以测一下,如果相同的问题用英文问,你得到回答,结果质量会比中文更好。
08
OpenAI 是如何开展 GPT 研究的?
Ilya Sutskever:OpenAI 最关键的想法对 AI 发展的支撑:
1. 通过压缩进行无监督学习。很多人了解 GPT 实际上压缩了训练数据,但是从数学意义上讲,训练这些自回归生成模型可以压缩数据,并且直观上,你可以看到它们为什么应该起作用。如果你将数据压缩得非常好,你就必须能够提取其中存在的所有隐藏信息。
2. 在情绪神经元领域的研究。这项工作的结果是神经网络。但它并不是 Transformer,而是在 Transformer 之前的模型——小型循环神经网络 LSTM,完成一些序列到序列的工作。它展示了无监督学习的一些效果,并验证了良好的下一个字符预测、下一个预测的想法,压缩具有发现数据中的秘密的特性,这就是我们在 GPT 模型中看到的。
Brockman:OpenAI 技术安全团队的重点是让系统能从数据中学习人类的价值观,从而和人类的伦理道德观念保持一致。可以类比到一个人类个体的成长,一个婴儿会成长成一个好人还是坏人,很大程度取决于它成长的环境以及因此接收到的信息质量,如果看到正面的榜样,就会接收到正面的反馈。所以我认为 AGI 也是一样,系统可以从数据中学习,以得到符合人类伦理道德的价值观。
09
GPT 是通过打游戏训练的?
Ilya Sutskever:OpenAI 完成的第一个真正的大型项目是让 AI 体验一款实时战略游戏。实时战略游戏本质是一项竞技运动,你需要聪明,需要更快,需要快速反应和团队合作。因为你正在与另一个团队竞争,这是非常、非常复杂的。这个游戏有一个完整的联赛,这个游戏就是 Dota 2。
我们训练了一个强化学习 agent 来与自己对抗,目标是达到一定水平,可以与世界上最好的玩家竞争。这是一个重大的项目,它是一个非常不同的工作方向——强化学习。GPT 产生了技术基座,从 Dota 的强化学习转变到人类反馈的强化学习,这种组合又产生了 GPT。
Brockman:Dota 训练 AI 的方法是自训练。我们设置了两个没有任何经验的 Dota AI 玩家没有任何经验,他们互相争斗;他们不断发现新的对战技巧、继续斗争。之后我们从 1V1 扩大到 5V5,继续学习团队行动中需要做的协调,在 5V5 版本游戏中达到专业水平难度指数级上升。这件事与昆虫的训练方式有很多共同点。但昆虫在这种环境中生活了很长时间,并且有很多经验。站在人类的角度来看,昆虫并不聪明,但昆虫其实能够很好地驾驭它所处的环境,甚至处理周围环境中从未见过的意外事情,我们在 AI Dota 玩家上看到了同样的事情。在这个游戏中,他们能够与人类对战,这在其进化环境中从未存在过。
10
AGI 的未来在哪里?
AGI(Artificial general intelligence) 指的是通用人工智能,它是一种假设的智能体,可以理解或学习人类或其他动物可以完成的任何智力任务。
Brockman:我们还在寻找创建 AGI 系统的方法,革命性的变革一定会在某个时间点发生。为了真正构建 AGI,一方面需要在计算规模上尽可能地推进,另一方面还需要在人类自身思考和认知的实质性推进。
建立 AGI 的基础是:
1. 泛化(Generality),我们用少数几个深度学习方法解决大部分问题,比如梯度下降、深度神经网络以及一些强化学习,解决了语音识别、机器翻译、游戏等所有问题;
2. 能力(Competence),深度神经网络可以解决计算机视觉 40 年研究中的任何问题,甚至有更好的效果。
3. 扩展性(Scalability),实验一次又一次地向我们证明:如果有一个更大的神经网络,有更多的训练数据,它的工作效果会更好。
Sam Altman:AGI 的构建需要更新的东西,一个无法显著增加我们可以获取的科学知识总量的系统,不能发现、发明或称之为新的基础科学,那么它就不是超级智能。为了做好这个,我认为我们需要扩展 GPT 范式的一些非常重要的方式,我们仍然缺少这些想法。
尽管 GPT-4 相当令人印象深刻,但它肯定不是 AGI。人们讨论了很多自己与 AI 获得的高水平幸福感。所以,也许我们永远不会建立 AGI,但我们会让人类变得非常出色,这仍然是一个巨大的胜利。
11
GPT 如何影响人类世界?
Hinton:GPT 将使工作不同,人们将从事更有创造性的工作,而较少从事例行工作。一旦这些工具开始有创造性,就会创造出更多的东西。人工智能对人类的威胁并不大——也就是说,预计不会发生灭绝级别的事件。但这并非不可想象。
人工智能总有一天会崛起并推翻其人类创造者的想法完全是胡说八道。然而,自从像 GPT 这样的系统扩展——现在甚至可以在 Bing 的人工智能版本中使用——以及谷歌的 Bard 被引入,人工智能对人类的威胁只会继续增长。
张铮:我们可以想象一下会出现哪些变化。第一种将直接洗牌和破坏现在的生态,扰动人力市场,这也是大家最担心的。第二种是变成GPT 的人肉外挂,给 GPT 找错,比如过滤虚假信息。就我对 GPT 的训练过程的了解,现在事实性的错误还不少,也没有很好的手段根治。第三种是创造性地开发新的工种,我能想到一些个性化教育的可能性,但有多少容量很难说。
新一代的 AI 模型的出现,还带来一个有趣的现象:中间值趋势——这不是一个具体可以量化的数值,而是一个感觉,就是在各种对齐税的驯化下,模型的回答中规中矩,不左不右。假定事实性错误会被最终解决掉,那么我觉得中间值趋势会带来一个好处,一个坏处。好的地方在于低于这个中间值的(人类)观点会被迫对齐,这种提升是有益的。坏的地方是如果中间值过于强大,会制约进步,使得中间值止步不前,导致整个文明的停顿。将来的 GPT,可能把人类文明捆绑成一个中间值不动了,也可能加速中间值的变化,现在很难看清楚。
Trinkle:人应该从重复性的机械性的劳动中解放出来,然后去做一些更有价值有意义的事情,甚至说,人也可以躺平,这都没有问题。
Bill Gates:人工智能能够帮助减少世界上一些最严重的不平等现象,包括教育,气候变化,健康等领域。
人工智能的进步将使创建个人代理成为可能。把它想象成一个数字私人助理:它会看到你最新的电子邮件,知道你参加的会议,阅读你读的内容,也会阅读你不想理会的东西。这既能提高你想做的任务的工作效率,又能让你从不想做的任务中解脱出来。
12
AI 可以替代人类吗?
Sam Altman:对于创造性行为和涉及编程的伟大设计的天才行为来说,人性元素是非常根本的。实际上并不是所有编程都是机械性的,某些设计和编程需要人类元素,机器不能代替它们。人们成功地将其用作创造性工具来解决空白页问题,摆脱困境,并产生一系列新想法。它不能以任何方式替代创造性工作,而是作为箭袋中的一支新箭。
我认为到目前为止我发现的最深刻的东西是它比维基百科更好地学习新事物的能力,这是我目前快速学习新事物的主要方式。
Trinkle:我觉得理论上 AI 无法取代人类,因为人脑其实也是一个神经网络,然后 AI 只是模拟是一个过程,大家都是神经网络,其实没有什么区别。最后可以做到完全和人一样,就相当于你可以很廉价去生产一些生产力,然后如果社会的生产力发展了,那么整个社会的科技水平会得到进一步的提升。
目前还没有到达 AI 的奇点,因为现在只是单纯的输入输出,相当于一个程序。它还暂时不能被改造成病毒。距离电影里面那种具有独立思维的模式还差得很远。
张铮:虽然 GPT 现在没有无法具身,但将来捕捉和人类需要的信号不是难事,这个问题,在我们学界叫做 embodiment,我看到谷歌和伯克利的一个工作,已经开始往这个方向走了。事实上,人类的感官在各种信号上的频宽是很窄的,尤其变成城市动物之后,很多天线就钝化了。因此,机器能做到的可能比人类更好。
Brockman:我认为人类最终无法区分机器人和人类。不可否认的是,人们在未来所获取的信息中有一部分一定是通过自动生成的,因为 AI 足够强大,以至于人们无法分辨出人类和人工智能分别产出的信息的之间的差异,甚至最有说服力的论点反而是由 AI 提出的。
Bill Gates:三个引导公众讨论 AI 的原则:
1. 应该努力平衡对人工智能弊端的担忧以及它改善人们生活的能力;
2. 政府和慈善机构确保人工智能被用于减少不平等;
3. 我们只是处在人工智能潜力开发的开始阶段。无论它今天有什么限制,很快就会得到解决。
13
AI 会有自我意识吗?
张铮:自我意识不过就是俄罗斯套娃,自己「俯视」那个在「思考」「感觉」的另一个自己,只要一个智能体的环境足够复杂,必然有自我意识的涌现。当大模型在进行强化学习的时候,外面还有一层是作为环境对模型的性能打分,这两个在一起,已经完成了套娃结构,可以说在训练的时候是完全有自我意识的,在实际运行的时候最外面套娃现在一般不用,但可以用,而且一般人说话的时候并不过脑,过程和只有一个套娃在裸奔一样。比较有趣的一点是,AI 可以完成无数层自我嵌套,无数个自我意识。认为自我意识是唯独人的专有,是人类自我中心的体现。类似的狂妄自大太多了。我读过不少文章,说明动物界中存在着广泛的自我意识,所谓「镜子测试」(Mirror test)只是测一小撮和人类生存环境相似的动物,依然体现了人类自我中心的自大症。
14
大模型和小模型有
什么区别?
张铮:现在普遍接受的看法是大模型容易优化,小模型难训,需要更多的时间。但我觉得大模型训完之后它的解空间不平滑,而生成结果是一个采样的过程,大模型容易踩到坑里,容易胡说。小模型如果能训出来,解空间应该稠密一些,说不定效果更好呢,这只是一个直觉,有可能不对,因为这么高维度的空间,非常难理解透彻。几周前斯坦福大学有一个结果,用了七十亿参数的小模型可以和谷歌的几千亿参数的大模型在一些任务上打成平手,这是很鼓舞人心的结果。第二,之前我说过现在的模型都是全盘通吃的大胖子,这是一个非常不灵活的系统,接专业外挂是更合理的结构,OpenAI 最近的动作正是如此。在解决了这两个问题之后我们可以问,一个有用的「小」模型的底线是什么?我的看法是也不能太小,因为必须要有融会贯通的世界模型和基本的知识,不然就会很弱智,团结了再多的小模型,也是乌合之众。
本文整理自以下访谈:
张峥、小白谈 GPT 与人工智能:可能是好事,也可能不是OpenAI 是怎么做出 GPT 的,在那里工作又是一种怎样的体验?
EyeOnAI 116 期采访 Ilya Sutskever
OpenAI CEO Sam Altman on Learnings from GPT-4 and 『Impromptu』