GPT算力估算:中小企业也能突围
I、GPT的训练算力需求
GPT是一种基于人工智能的对话模型,它的训练需要大量的计算资源。那么,我们来看看GPT的训练算力需求吧。
根据OpenAI的训练集群规模,我们可以进行一些线性估算。使用22台8卡服务器,就可以完成GPT-6B模型的训练,大约需要1-4周的时间。而标准大小的GPT-175B模型,大约需要375-625台8卡A100服务器进行训练。如果可以等待一个月的话,150-200台8卡服务器也足够了。总的来说,GPT的训练过程需要消耗约35000个GPU的资源。
那么,我们可以通过一些不同的方式来验证GPT的训练资源需求。
首先,根据Azure超算资源的上限,我们可以得出在Azure平台上,CPU与GPU的数量比接近1:2。而GPU的数量为1万块V100,而不是国内一些误传的A100。考虑到超算还要同时进行其他模型的训练,因此GPU的占用率不会达到100%。所以,如果换算到A100的话,大约需要3000-5000块GPU进行训练,耗时两周。
其次,根据NVIDIA联合发布的论文,他们给出了训练时间的经验公式,利用并行技术将GPU算力的利用率提升到52%。按照这个公式,训练175B的GPT-3模型需要34天,使用了1024块A100 GPU。这个数据与前面的估算基本一致。
还有,根据Google在两年前发表的论文,当时训练175B GPT-3模型大约需要1万块V100 GPU,耗时两周。考虑到A100的算力进步和有效算力使用率提升,大约需要使用35238个GPU(A100)。
需要注意的是,以上的估算并未将一些优化技巧,比如并行训练方法和使用FP16或TF16等,考虑在内。但总体来说,随着规模的增加,算力的利用率会降低。所以,对于创业企业而言,考虑使用6B模型可能更为合适,只需要22台8卡GPU服务器,而硬件购置成本相当于1-2年的云服务训练成本。如果使用存算一体技术的训练卡,可能只需要1-4台就足够了。此外,根据OpenAI的论文,GPT/InstructGPT-1.3B的效果都好于GPT-3 175B的效果,所以未来GPT的算力私有化也不是问题。
除了GPU,还有DSA和存算一体技术等其他技术也可以有效提高算力并降低成本。对于具体的请求量和qps问题,可以根据实际情况进行考虑。
II、小八卦
另外,有网友对我给出的估算提出了质疑,并提供了另一个参考。我们来对比一下本文和经济账的测算情况。
首先,参照文以TPUv4成本作为基准,而不是GPU。据我了解,139.8万美元的训练成本是基于TPUv4的云服务成本。但是根据Google的信息,在相同的训练规模下,TPU的成本大约只有同时期GPU的1/5~1/4。而GPT使用的是Azura云上的GPU,而不是Google自产自销的TPU。所以,这个成本的依据可能不适合大部分非Google客户。
其次,参照文引用的成本数据来自2020年,而现在已经是2023年了。根据摩尔定律,硬件成本大约每18个月降低一半。所以,参照文中的一些数据可能需要进行调整。
最后,参照文的作者是一位投资人,他的数据来自于2020年的一篇论文。但是这位投资人在整理数据时没有做2020年到2023年和TPU到GPU成本的调整。
总的来说,参照文中的估算和我们的估算相当一致。所以,我们对GPT的训练算力需求可以有一定的信心。
总结回顾
GPT的训练算力需求是一个重要的考虑因素。根据我们的估算,中小企业也有机会进入GPT的模型领域。通过合理的选择模型和优化算力利用率,中小企业可以降低训练成本,与大公司展开竞争。GPT的算力私有化也是可行的,并且可以根据自身需求进行定制化训练。总之,GPT领域中,中小公司也能够崭露头角,取得成功。
感谢您的阅读!