AI绘画加速方案对比:OneFlow超越Xformers,速度提升211%
1. 引言
AI绘画是一项基于扩散模型的图像生成技术,可用于CG、插图和高分辨率壁纸等领域。然而,由于其复杂的计算过程,AI绘画的速度经常成为瓶颈。为了解决这个问题,Omniinfer对加速方法进行了一系列比较测试,包括Xformers、Aitemplate、TensorRT和OneFlow。本文将介绍这些加速方法的原理和性能测试结果,并提供不同显卡成本效益的考虑,以帮助您在部署过程中做出明智的选择。此外,我们旨在帮助您了解为什么Omniinfer的AI绘画API可以支持1万个模型,并在短短2秒内生成高质量图像。如果您对测试Omniinfer的图像生成速度感兴趣,可以选择API、演示或无GPU选项。我们期待收到更多用户的反馈和建议。
2. 加速方案原理和特点对比
首先,我们整理了几种可用于加速AI绘画的方案,选择了Xformers、Aitemplate、TensorRT和OneFlow作为加速方案。NvFuser与Xformers在原理上相似,都使用了FlashAttention技术。DeepSpeed和colossalAI主要用于训练加速,而OpenAI Triton则用作模型部署引擎,适用于批量加速,但不适用于模型优化延迟场景。因此,我们在比较中排除了这些方案。目前,我们正在不同的GPU上测试WebUI基本方案和四种加速方案(Xformers、Aitemplate、TensorRT和OneFlow)的性能。
3. 加速方案测试
接下来,我们将介绍相关的测试配置,并与您分享实际的测试结果。
3.1 测试设置
本次测试的性能指标是每秒迭代次数(its/s)。
图像设置:512*512,步数100
提示:一个美丽的女孩,最好的质量,超高精细度的CG unity 8k壁纸,最好的插图,极其精致美丽,浮动,高分辨率。
负面因素:低分辨率,解剖不良,手部问题,文字错误,缺少手指,多余的手指,手指数量不足,裁剪,最差质量,低质量,正常质量,jpeg伪影,签名,水印,用户名,模糊,脚部问题,身体融合。
采样器:Euler a
模型:Stable Diffusion 1.5(Omniinfer提供1万个其他模型,您可以选择任何一个进行测试)
3.2 测试结果
从上表中我们可以观察到加速比较如下:OneFlow > TensorRT > Aitemplate > Xformers。OneFlow相对于Xformers在RTX 3090上的加速比达到了211.2%,在RTX 4090上的加速比达到了205.6%。
4. GPU性能和成本效益对比
我们对不同的GPU进行了成本效益分析,以下是结论:
结论1:从成本效益的角度来看,RTX040 GPU提供了最高的价值。
结论2:极低端的GPU可能会增加总体成本。