摘要: 由生成的AI繁荣推动的CoreWeave和其他替代云正在制作狂热者。但是这是可持续的吗?
替代云服务的需求正在增长
最近,替代云服务的需求越来越大。
以CoreWeave为例,这家GPU基础设施提供商最初是一家加密货币挖矿公司,本周从包括Coatue、Fidelity和Altimeter Capital在内的投资者那里筹集了11亿美元的新资金。这轮融资使其估值达到了19亿美元,总共筹集了50亿美元的债务和股权资金 — 这对于一家不到十岁的公司来说是一个非常了不起的数字。
除了CoreWeave之外,Lambda Labs在今年四月初获得了高达5亿美元的“特殊目的融资工具”,几个月前完成了3.2亿美元的C轮融资。由加密货币亿万富翁Jed McCaleb支持的非营利组织Voltage Park,去年十月宣布将在GPU支持的数据中心投资5亿美元。而Together AI,一家云GPU主机公司,也进行生成式AI研究,在三月份获得了由Salesforce领导的1.06亿美元融资。
那么,为什么对替代云空间如此热情,并且资金不断涌入呢?
答案就是生成式AI。
随着生成式AI的繁荣继续,对于在规模上运行和训练生成式AI模型的硬件需求也在增加。GPU在架构上是训练、微调和运行模型的逻辑选择,因为它们包含数千个核心,可以并行工作以执行构成生成模型的线性代数方程。
但安装GPU很昂贵。因此,大多数开发人员和组织转而使用云服务。
云计算领域的老牌公司 — Amazon Web Services(AWS)、Google Cloud和Microsoft Azure — 提供了大量针对生成式AI工作负载进行优化的GPU和专用硬件实例。但至少对于某些模型和项目来说,替代云可能会更便宜 — 并提供更好的可用性。
在CoreWeave上,租用一台Nvidia A100 40GB — 这是模型训练和推理的一种常见选择 — 每小时的费用为2.39美元,相当于每月1200美元。在Azure上,同样的GPU每小时费用为3.40美元,或每月2482美元;在Google Cloud上,每小时费用为3.67美元,或每月2682美元。
鉴于生成式AI工作负载通常在GPU集群上执行,成本差距很快就会增加。
“像CoreWeave这样的公司参与了我们所说的市场,即专门提供‘GPU即服务’云服务提供商,”Gartner云服务和技术副总裁Sid Nag告诉TechCrunch。“鉴于对GPU的高需求,它们为超大规模提供了另一种市场和访问这些GPU的途径。”
Nag指出,甚至一些大型科技公司也已经开始依赖替代云提供商,因为它们在计算能力方面遇到了挑战。
去年六月,CNBC报道称,微软与CoreWeave签署了一项价值数十亿美元的协议,以确保OpenAI,CHAT GPT的制造商和微软的密切合作伙伴,拥有足够的计算能力来训练其生成式AI模型。Nvidia,CoreWeave芯片的主要供应商,认为这是一个令人欣喜的趋势,也许是出于杠杆的原因;据说它已经给一些替代云提供商提供了对其GPU的优先访问。
Forrester首席分析师Lee Sustar认为,像CoreWeave这样的云供应商之所以成功,部分原因在于它们没有现有供应商必须处理的“基础设施包袱”。
“鉴于超大规模主导整体公共云市场,要求在基础设施和服务范围上进行巨额投资,这些投资几乎没有或没有收入,像CoreWeave这样的挑战者有机会通过专注于高级AI服务而成功,而无需承担超大规模水平的整体投资负担,”他说。
但这种增长是否可持续呢?
Sustar表示怀疑。他认为,替代云提供商的扩张将取决于他们是否能够继续大规模推出GPU,并以竞争性低价提供它们。
随着Google、微软和AWS加大投资于定制硬件来运行和训练模型,通过价格竞争可能会变得具有挑战性。Google提供其自己的TPUs;微软最近推出了两款定制芯片,Azure Maia和Azure Cobalt;AWS则拥有Trainium、Inferentia和Graviton。
“超大规模供应商将利用他们的定制芯片减轻对Nvidia的依赖,而Nvidia将寻求与CoreWeave和其他以GPU为中心的AI云合作,”Sustar说。
此外,尽管许多生成式AI工作负载在GPU上运行效果最佳,但并非所有工作负载都需要它们 — 特别是如果它们不是时间敏感的话。CPU可以运行必要的计算,但通常比GPU和定制硬件慢。
更重要的是,存在一个威胁,即生成式AI泡沫将会破裂,这将导致供应商拥有大量GPU,而需求却不足。但在短期内,Sustar和Nag都认为未来看起来是光明的,他们预计会有一大批新兴云服务。
“以GPU为导向的云创业公司将为[现有供应商]带来充足的竞争,特别是在已经使用多云且能够处理多云管理、安全性、风险和合规性复杂性的客户中,”Sustar说。“这类云客户如果有可信的领导力、坚实的财务支持和无需等待时间的GPU,他们会愿意尝试新的AI云服务。”