InstructGPT 论文阅读

热门头条1年前 (2023)更新残剑@葫芦娃AI

8.8K 0 0

InstructGPT 论文阅读

这篇 paper 说明了 CHAT GPT 是如何练成的，文章实验之严谨，思虑之周详令人惊叹。文中提供了大量实验细节，正文就长达20页，同时还有详尽的附加材料和开源的 github 项目辅助材料，对于研发大模型的公司而言十分友好。

这是 Prompting 论文小组发起以来，阅读的第二篇文章，之前也读过，现在再读一遍，结合近来的技术进展，又有一番新的体会。因为对强化学习不是很了解，所以论文中有部分内容也不太理解，如有错误，欢迎有所依据的批评指正。

阅读过程中，发现在各种文章，解读中看过的内容，许多概念，在本文中都有更加清晰准确的介绍，更加深入的思考探究。有能力的朋友推荐阅读原文，下面是一些个人思考。

1. 对齐。

整篇文章实际上都在讨论对齐，介绍 CHAT GPT 中使用的对齐技术，主要是 RHLF——基于人类反馈的强化学习。

对齐的定义: 使得模型表现符合用户意图。

为什么需要对齐?

模型并不是越大越实用，模型预训练的目标只是让预测下一个单词更准确，不是让模型更好的遵循用户意图。为了让模型有用，需要在大量任务上，基于人类的反馈对模型进行对齐训练，让模型与用户意图对齐。

GPT如何对齐的?

GPT使用的是 RHLF，需要说明的是实现对齐目标，需要使用的技术并不只有这一种，还有很多。

本文中对齐的做法: 预训练模型GPT3 -> 使用人工标注数据+api用户数据微调 GPT3 -> 训练奖励模型(较小的模型)，对 GPT3 不同输出进行评分，预测人类偏好结果 -> 使用奖励模型训练 GPT3 。
使用对话数据训练奖励模型，然后用奖励模型训练GPT模型这两个步骤可以不断迭代，重复进行，同时成本较低(约为预训练成本的 1/100 – 1/10)。

我们在使用 CHAT GPT时，遇到的一些对结果的评价，比如 better or not 这样的网页提示，将被用来训练奖励模型，然后用于对齐训练。估计这是2023年6月后GPT3.5 性能明显提升的重要原因之一。

模型评价指标是什么?

希望模型是 helpful, honest，和 harmless，即有用，诚实和无害。技术上分别评估的是指令遵循能力(人工评价结果认可度)，生成结果的真实性，生成结果的无害性。

对齐训练结果?

结果显示，对齐训练后，用户对结果的满意度更高，模型的结果真实性大大提高(幻觉减少)，对有害内容的生成有小幅度缓解。

同时发现对齐训练会导致模型在自然语言任务上的性能下降，但是有方法缓解。自然语言任务上的性能下降可能原因是学术数据集的数据多样性不足。

从论文提供的一些细节中可以得到一些有趣的思考

1. CHAT GPT 中英语的优势地位是全方面的。预训练中英文数据就占据绝大部分，微调数据英文占比 96%，在数据量级和场景多样性等方面远远超过其他语言，同时微调中对齐的使用偏好，价值观等等也是 OpenAI为首的英文使用人群。其他语言也能有较好的表现 1 是来源于 GPT 模型良好的泛化性能力，2 来源于各语言使用者使用GPT模型时产生的不同语言对话数据

2. 对齐训练更多的是对大模型能力的发掘，而非能力的注入。模型的能力更多的还是来自预训练，对齐训练让模型的能力对人类使用来说更加得心应手，体现的是对 AI 的精细化调教能力。

3. 大模型在学术数据集上指标好不代表使用体验好。本文同时对比了学术数据集上的指标和人类评价指标，发现对齐训练后人类用户评价好很多，但是学术数据集上出现了性能回退。大模型研发厂商动辄宣传在某某学术数据集上模型指标有多好，用户实际使用体验却不及预期，原因在此，学术数据集指向性更强，而用户实际使用多样性更强。

4.微调。微调大模型能力，很多朋友关注点在训练，但实际目前还是严重依赖数据。论文中提到了很多解决模型问题的方法，最终还是回到了怎么收集数据，处理数据的精细化做法上。比如解决有害问题，其中一个做法就是清洗预训练数据，在预训练环节就避免引入有害内容。OpenAI开放微调能力以后，很多朋友展现了浓厚的学习兴趣，但多浮于操作和流程的学习，忽略了关键的数据集制作过程，导致模型表现反而不如 prompt 提示效果。

这篇文章值得学习的内容实在是太多，不经意处的一两句话都能引起人的很多思考。比如OpenAI 对ai系统对齐研究的远见与务实作风，对ai 对社会影响的思考等等都很有深度，值得琢磨。写作过程中发现自己掌握下来的不过零星半点知识而已，大家如有兴趣和能力，推荐大家花些时间阅读原文。