Patch n’ Pack: NaViT – 一种适用于任何宽高比和分辨率的视觉转换器
一、挑战固定分辨率的束缚
在计算机视觉模型处理图像之前,普遍且明显不够优化的选择是将图像调整为固定分辨率。然而,像Vision Transformer (ViT)这样的模型提供了灵活的基于序列的建模,因此输入序列长度也会有所不同。我们利用这一点,通过NaViT (Native Resolution ViT)在训练过程中使用序列打包来处理任意分辨率和宽高比的输入。除了灵活的模型使用方式,我们还展示了在大规模监督和对比图像-文本预训练中提高训练效率的结果。NaViT可以高效地应用于图像和视频分类、目标检测以及语义分割等标准任务,并在鲁棒性和公平性基准测试中取得了改进的结果。在推理过程中,输入分辨率的灵活性可以用于在测试时间中平衡性能和成本。我们相信,NaViT标志着计算机视觉模型中使用的标准CNN设计的输入和建模流程的改变,并代表了ViTs的一个有前景的方向。
二、NaViT的优势
1. 灵活处理任意分辨率和宽高比的输入
NaViT通过序列打包的方式,实现了对任意分辨率和宽高比的输入进行处理。这一灵活性使得模型能够适应不同尺寸和比例的图像,提高了模型的适应性和泛化能力。
2. 改进大规模监督和对比图像-文本预训练的效率
在大规模监督和对比图像-文本预训练中,NaViT展现出了更高的训练效率。通过使用序列打包技术,NaViT能够更好地处理输入数据,提高模型的学习速度和准确性。
3. 在标准任务中取得改进的结果
NaViT在图像和视频分类、目标检测以及语义分割等标准任务中取得了改进的结果。通过灵活的输入处理和建模方式,NaViT能够更好地捕捉图像的特征和上下文信息,提高了模型在各项任务上的性能。
总结
NaViT是一种适用于任何宽高比和分辨率的视觉转换器,通过序列打包技术实现了对任意输入的处理。NaViT在大规模监督和对比图像-文本预训练中展现了更高的训练效率,并在标准任务中取得了改进的结果。它代表了计算机视觉模型中一种有前景的发展方向,为模型的灵活性和性能提升提供了新的思路。
感谢您的阅读!