摘要: 进步范围涵盖了自定义图像生成,3D场景编辑,视觉语言理解和自动驾驶汽车感知。
英伟达在计算机视觉和模式识别会议上展示新的视觉生成AI模型和技术
英伟达研究人员在本周的计算机视觉和模式识别(CVPR)会议上展示了新的视觉生成AI模型和技术。这些进展涉及定制图像生成、3D场景编辑、视觉语言理解和自动驾驶车辆感知等领域。
英伟达研究副总裁Jan Kautz表示:“人工智能,特别是生成式AI,代表了一个重要的技术进步。在CVPR上,英伟达研究展示了我们如何突破可能性的边界 – 从强大的图像生成模型可以为专业创作者提供动力,到可以帮助实现下一代自动驾驶汽车的自动驾驶软件。”
英伟达的研究项目中有超过50个被展示,其中两篇论文被选为CVPR最佳论文奖的入围作品 – 一篇探讨扩散模型的训练动态,另一篇关于自动驾驶汽车的高清地图。
此外,英伟达赢得了CVPR自动驾驶大挑战赛的端到端驾驶规模轨道,超过全球450个参赛作品。这一里程碑展示了英伟达在使用生成式AI为全面自动驾驶车辆模型的开创性工作,还获得了CVPR的创新奖。
其中一个研究项目是JeDi,这是一种新技术,允许创作者快速定制扩散模型 – 这是文本到图像生成的主要方法 – 以描绘特定对象或角色,只需几张参考图像,而不是在自定义数据集上进行耗时的微调。
另一个突破是FoundationPose,这是一个新的基础模型,可以立即理解和跟踪视频中物体的3D姿势,无需逐个对象进行训练。它创造了新的性能记录,可以解锁新的增强现实和机器人应用。
英伟达研究人员还介绍了NeRFDeformer,这是一种方法,可以使用单个2D快照编辑由神经辐射场(NeRF)捕获的3D场景,而不必手动重新动画更改或完全重新创建NeRF。这可以简化用于图形、机器人和数字孪生应用的3D场景编辑。
在视觉语言方面,英伟达与麻省理工学院合作开发了VILA,这是一系列新的视觉语言模型,实现了在理解图像、视频和文本方面的最新性能。具有增强的推理能力,VILA甚至可以通过结合视觉和语言理解来理解互联网迷因。
英伟达的视觉AI研究涵盖了许多行业,包括探索用于自动驾驶车辆感知、制图和规划的新方法的一打多篇论文。英伟达AI研究团队副总裁Sanja Fidler将就视觉语言模型在自动驾驶汽车中的潜力进行演讲。
英伟达在CVPR研究的广度展示了生成式AI如何赋予创作者力量,加速制造业和医疗保健中的自动化,推动自主性和机器人技术向前发展。
(照片由v2osk)