为什么GPT如此受欢迎？

热门头条2年前 (2023)发布残剑@葫芦娃AI

7K 0 0

为什么GPT如此受欢迎？

I、GPT的训练框架概述

传闻GPT-4的训练使用了数万张A100，历时数月，成本相当惊人?。那么，你可能会想，GPT使用了什么框架呢？通过公开信息我们可以得知，它可能与Ray有一定的关系。尤其是在Instruct GPT的训练过程中，第三步尤为复杂，需要进行PPO训练。DeepSpeed Chat的实现中使用了五个模型，而ColossalChat的实现中使用了四个模型?。其中两个模型用于训练，需要进行前向传播、反向传播和权重更新，而其他模型则用于推理或EMA更新。这对分布式框架提出了严峻的挑战，因为推理和训练的配置不同，并且推理和训练应该是异步进行的。

II、ColossalChat和Ray的结合

ColossalChat基于Ray实现了异步推理和训练，取得了出色的训练性能。推理和训练被解耦，这样做的优势之一是可以很好地处理不同模型的大小❤️。从Anthropic的论文中，我们也可以看到，随着模型大小的增加，性能也会不断提高。RLHF（强化学习模型自适应训练）是非常必要的。逻辑推理评估显示，开源的大模型大多没有经过RLHF训练，逻辑能力较差。基于Ray的Alpa框架可以实现PP和Intra OP（张量并行，2D、2.5D、3D）的自动并行。阿里的PAI团队开源的TepDist框架也可以实现自动并行，它在自动并行流程优化方面表现出色，能够快速找到自动并行的方案?。通过PingPong缓冲区提高了PP并行的效率。ColossalAI参考了Alpa并实现了自动并行，他们的自动并行也有独特之处，考虑了自动Checkpoint和Intra Parallelism，并计划加入PP的自动并行功能，同时实现了自动的Offload，在不降低计算速度太多的前提下，大大节省了内存。此外，国防科技大学开源的Merak框架也是一项有趣的工作，它易于使用、上手简单、配置简洁。DeepSpeed还具备Auto Tune功能?。

III、挑战与前景展望

分布式训练框架需要处理各种大型模型，不仅有大语言模型，还有多模态模型、推荐模型以及自动驾驶BEV模型等。要使用各种分布式技术，如PP TP、2D、2.5D、3D并行、Zero、Offload、Checkpoint。还要处理各种不同大小的模型，有数十亿的、上百亿的，甚至千亿、万亿级的模型。这是一个极具挑战性的问题。通过一定的编译手段来自动化处理这些复杂的情况，虽然艰难，但具有前景。