就上个月一项名为「Drag Your GAN」的核弹级研究,在AI绘图圈炸响。现在他们就正式的发布开源代码了:DragGAN
用户只需一拖一拽,就能实现自定义完美P图了,哪里不准修哪里!
DragGAN开辟了一个全新的图像编辑类别,其中逼真的图像由用户通过拖放进行自定义,详细信息由 GAN 处理。
当今的图像处理方法,例如使用Photoshop等工具,需要高度的技能来灵活,精确地控制单个对象的位置,形状,表达或排列等。
另一种选择是使用生成式 AI 创建全新的图像,例如StableDiffusion、或 MidJourney 或GAN ,但这些几乎没有提供用户控制的功能。
借助DragGAN,来自马克斯普朗克计算机科学研究所,萨尔布吕肯视觉计算研究中心,麻省理工学院CSAIL和Google的研究人员展示了一种控制GAN进行图像处理的新方法。
拖拽:拖拽图像处理
DragGAN 可以处理逼真的图像,只要表示与 GAN 训练数据集的类别匹配即可。这些包括动物、汽车、人、细胞和景观。
在一个简单的界面中,用户将他们在图像中定义的点拖动到所需的位置,例如,闭上猫的眼睛,旋转狮子的头并张开嘴,或将汽车转换为另一种模型。
DragGAN 跟踪这些点并生成与所需更改相对应的图像。
DragGAN 为具有挑战性的场景生成逼真的输出
“通过DragGAN,任何人都可以通过精确控制像素的位置来变形图像,从而操纵不同类别的姿势,形状,表情和布局”该团队说。“由于这些操作是在GAN的学习生成图像流形上执行的,因此即使对于具有挑战性的场景,例如幻觉遮挡的内容和始终遵循对象刚性的变形形状,它们也倾向于产生逼真的输出。
在比较中,该团队表明DragGAN明显优于其他方法。但是,当某些更改超出训练分布范围时,它们仍然伴随着伪影。
不过相信随着AI的发展和数据的持续训练,它会变得更好更强。最后让用户真正将AI创作掌握在自己的手和无限的想象力中,而不是全有AI扩散生成!
Summary 小结
- DragGAN 允许您通过在图像上拖放点来编辑图像。例如,狮子的嘴可以张开,或者汽车可以变成不同的模型。
- 在幕后,DragGAN 跟踪用户输入并为所需的更改生成适当的图像。
- 只要输入图像在GAN训练数据中包含的类别内,DragGAN就会生成逼真的结果。