Visformer：视觉友好型变压器

重磅干货，第一时间送达

小黑导读

论文是学术研究的精华和未来发展的明灯。小黑决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

摘要

过去的一年见证了Transformer模块在视觉问题上的快速发展。虽然一些研究人员已经证明了基于transformer的模型具有良好的数据拟合能力，但仍有越来越多的证据表明这些模型存在过拟合问题，特别是在训练数据有限的情况下。本文通过逐步操作，将基于transformer的模型逐步转换为基于convolutional的模型进行了实证研究。作者在过渡过程中获得的结果为改善视觉识别提供了有用的信息。基于这些观察，作者提出了一个名为Visformer的新架构，它是视觉友好转换器的缩写。在计算复杂度相同的情况下，Visformer在ImageNet分类精度方面优于Transformer-based和convolutional -based两种模型，当模型复杂度较低或训练集越小时，这种优势就越显著。

代码链接：https://github.com/danczs/Visformer.

论文创新点

本文的贡献有三方面。

首先，作者首次引入了下界和上界来研究基于transformer的视觉模型的性能。

其次，作者通过一个渐进的过渡过程来缩小基于transformer和基于convolutionbased模型之间的差距，从而确定基于transformer和基于convolutionbased模型中的设计属性。

第三，作者提出了Visformer作为最终模型，同时实现了满意的下限和上限，并具有良好的可扩展性。

框架结构

从DeiT开始到ResNet-50结束的转换过程。为了节省空间，作者只展示了三个重要的步骤，即(i)用步进式patch embedding代替patch扁平化模块，(ii)引入分段式设计，(iii)用卷积代替self-attention模块。右上区域显示了一个相对较小的修改，插入了3个3个卷积。右下区比较了3 - 3卷积的接受区和自我注意。这个图形最好是彩色的。

实验结果

作者的方法与其他基于变形器的视觉模型的比较。*表示作者使用elite设置重新运行模型。KD代表知识提炼

结论

本文提出了一种基于变形器的视觉识别模型Visformer。作者建议使用两个协议，基础和精英设置，以评估每个模型的性能。为了研究基于变形器的模型和基于卷积的模型行为不同的原因，作者分解了这些模型之间的差距，并设计了一个八个步骤的过渡过程，连接DeiT-S和ResNet-50之间的差距。通过吸收优缺点，作者得到了优于DeiT-S和ResNet-50的Visformer-S模型。当它被转移到一个紧凑的模型和在小数据集上进行评估时，Visformer也显示出了很有前途的能力。

但是，作者应该注意到基于transformer的模型仍然缺乏被转移的灵活性。例如，目标检测和语义/实例分割通常需要大量的输入图像，但是Transformer的复杂性随着输入大小的增加而增加了ON 4。此外，自我监督学习在基于变形金刚的模型上的表现还不清楚[9,14]。作者希望Visformer能够激励社区，并为解决这些挑战提供新的机会。

论文链接：https://arxiv.org/pdf/2104.12533.pdf

每日坚持论文分享不易，如果喜欢我们的内容，希望可以推荐或者转发给周围的同学。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。