让我们先来看一下官方视频:
使用 AI 生成试妆图像
Google的虚拟试妆(VTO)功能其实已经走了很长一段路。之前的几何变形等技术可以剪切粘贴,然后使服装图像变形以适应轮廓,但即便如此,最终的图像从未完全达到目标:衣服不能现实地适应身体,而且它们有视觉缺陷,比如错位的褶皱,使衣服看起来畸形和不自然。
为此Google着手构建新的VTO功能时,致力于从头开始生成服装的每个像素,以产生高质量,逼真的图像。他们找到了一种新的基于扩散的AI模型的方法。
为了理解这个模型是如何工作的,让我们首先解释扩散:
扩散是逐渐向图像添加额外像素(或“噪声”)直到无法识别的过程,然后完全消除噪声,直到原始图像以完美质量重建。像 Imagen 这样的文本到图像模型使用扩散和来自大型语言模型 (LLM) 的文本,仅根据您输入的文本生成逼真的图像。
Google决定使用扩散来解决 VTO 问题,但在扩散过程中,没有使用文本作为输入,而是使用一对图像:一个是一件衣服,另一个是一个人。每个图像都被发送到自己的神经网络(U-net),并在称为“交叉注意力”的过程中相互共享信息以生成输出:穿着衣服的人的逼真图像。这种基于图像的扩散和交叉注意力的结合构成了新的AI模型。
使用谷歌的购物图数据进行培训
为了使 VTO 功能尽可能有用和逼真,Google对新的 AI 模型进行了严格的培训。但是没有像Imagen那样使用LLM对其进行训练,而是利用了Shopping Graph(购物图),这是世界上最全面的最新产品,卖家,品牌,评论和库存数据集。
(扩散模型将图像发送到他们自己的神经网络(U-net)以生成输出:穿着服装的人的逼真图像)
我们在线下商店试穿衣服时,可以立即判断它们是否适合自己。如果不是,可以将它们换成不同颜色、款式或价格点的作品,以更好地匹配自己需求。但是在线上却不行…
谷歌推出的这个AI服装试穿功能可以带来试衣间体验。希望各大电商平台以后都能够支持这种AI功能来改善线上购物体验😚