摘要: 了解CHAT GPT的背景、发展现状以及核心技术。获取CHAT GPT中文版,学渣也能搞定!
CHAT GPT:AI学渣的角度理解
CHAT GPT是当前备受关注的AI模型之一,不仅在人工智能领域引起了热议,也吸引了更多非专业人士的关注。本文将从一个AI学渣的角度,以浅显易懂的方式解释CHAT GPT的背景、发展现状以及核心技术,并介绍了其模型架构和训练步骤。
背景介绍
CHAT GPT引起了全球关注,不仅限于AI圈内,也吸引了圈外人士的关注。它和去年公布的InstructGPT是一对姊妹模型,有时候也被称为GPT-3.5。CHAT GPT模型在GPT-4之前发布,被认为是GPT-4的预热模型。据传闻,GPT-4将是一个多模态模型,除了可以理解文本回复文本外,还能理解其他模态,如视频、图片和语音,使得回复内容更加生动活泼。
GPT进化史
模型架构
CHAT GPT和InstructGPT在模型结构和训练方式上完全一致,都采用了指令学习(Instruction Learning)和人工反馈强化学习(RLHF)进行训练,唯一的区别在于数据采集方式有所不同。目前,CHAT GPT的论文和代码细节尚未公布,但我们可以通过InstructGPT来理解CHAT GPT的模型和训练细节。
核心技术
CHAT GPT的核心技术包括指令学习(Instruct learning)和基于人工反馈的强化学习(RLHF)。
-
指令学习(Instruct learning):也被称为提示学习(prompt learning),通过人工标注的问题回答数据进行有监督的微调,目的是优化数据集,使用人类喜欢的答案作为训练数据,从而生成人类更喜欢的内容。
-
强化学习(RLHF):基于人工反馈的强化学习,可以告诉模型生成的内容好不好,而不是告诉模型如何变得更好。这种方式给予模型更大的探索自由,训练出的模型具有更好的泛化能力。
训练步骤
InstructGPT/CHAT GPT的训练分为SFT、RM和PPO三个步骤。
-
SFT(Supervised FineTune):CHAT GPT是一个对话模型,实现对话的第一步是依赖SFT。SFT是对GPT-3进行有监督微调的过程,通过人工喜欢的答案作为训练数据对数据集进行优化,从而提升模型生成内容的人类喜好程度。
-
RM(Reinforcement Learning from Human Feedback):RM引入强化学习,可以告诉模型生成的内容好不好。具体步骤包括:模型根据问题生成多个答案,人工对答案进行排序和打分,模型通过人工打分的数据进行训练,以预测用户更喜欢的答案。
-
PPO(Proximal Policy Optimization):PPO阶段将SFT和RM两个模型结合起来,利用PPO算法微调SFT训练出的生成模型,并将生成的答案通过RM模型进行打分,持续迭代生成模型。PPO算法的具体步骤包括:利用生成模型和RM模型初始化PPO策略模型和价值函数,随机采样一个prompt进行生成,计算奖励值并更新PPO策略模型参数,重复此过程直至PPO策略模型收敛。
InstructGPT/CHAT GPT模型架构
强化学习和预训练模型是近年来最热门的AI研究方向之一。此前,一些研究人员认为将强化学习应用于预训练模型并不是很合适,因为很难通过模型的输出建立奖励机制。然而,InstructGPT/CHAT GPT通过结合人工标注,成功将强化学习引入预训练语言模型,这是该算法的最大创新点。
参考文献
- 65.0 CHAT GPT – 钱爽的博客
- CHAT GPT是怎样被训练出来的?
- https://arxiv.org/pdf/2203.02155.pdf
- https://zhuanlan.zhihu.com/p/590311003
本文从一个AI学渣的角度对CHAT GPT进行了解释,如需更深入的理解,建议阅读参考文献。