SDXL新时代开启之前,让我们回顾一下“稳定扩散”世界中发生的一切!
在SDXL时代到来之前,OpenAI推出了Dall-E,它能够生成一些中等质量的图像,但访问受限。相比之下,稳定扩散则是开源的,被广泛采用,因此非常受欢迎。人们开始优化它,使其在使用更少VRAM的情况下可用。我们有了SD1.4、SD1.5和SD2.+。此外,稳定扩散不仅支持Text2Img,还支持Img2Img和Inpaining,这些都是重大突破,无限可能性展现在眼前(比如StelfieTT通过数小时的努力制作出了精美的图像)。DreamBooth和类似技术让用户可以在稳定扩散的基础上进行训练,以生成更多“专业化”模型,我们很快将会有各种类型的模型(逼真、动漫等)。huggingFace和civitai等网站托管了所有这些模型。出现了更多的技术,如Hypernetworks、LORAs、Embeddings等,它们使训练更轻量化、更快速、更高效。甚至还有“模型合并”的技术。CKPT模型存在弱点,使用时可能存在潜在的危险,社区开始采用.safetensors来解决问题。不确定是何时,OUTpainting开始流行起来,人们对于如何使用它并不是非常了解,除了Img2Img标签下的两个outpainting脚本之外,还有其他扩展。直到ADOBE对其进行了审计并成功将其整合到Photoshop中,outpaining才变得流行起来。人们可以通过将流行的名字与不同的百分比相结合,制作出一致的角色形象(在训练、loras之外)。Img2Img并不容易使用,原始图像和人物姿势很容易被改变。只有那些愿意亲自绘制姿势的艺术家和爱好者才能通过img2img实现他们想要的效果。虽然有一些方法可以帮助,比如“img2img alternative test”…直到ControlNet的出现,一切都发生了翻天覆地的变化。ControlNet引入了各种模型,可以用于定位txt2txt和img2img的工作流程。这将使img2img用户更容易保持姿势/物品、文本和主题的一致性。在ADOBE将outpaining集成到其工具中之后(无需提示),ControlNet的开发者成功复现了他们的技术,通过使用“inpaint + llama”。通过低降噪强度的高分辨率修复,可以在小图像的基础上生成更大的图像,并且具有更高的细节。尽管如此,对于大多数用户来说,制作非常大的图像仍然是一个问题。直到出现了涉及ControlNet的终极稳定扩散放大器(USDU),人们才能够制作出巨大的图像,而不用太担心GPU或VRAM的问题。像Ultra Shaper这样的采样器能够生成极其详细的USDU图像。