Transformer在计算机视觉范围走到哪了？

发布时间：2021-06-05 16:05:26 所属栏目：大数据来源：互联网

导读：Transformer 模型在自然语言处理（NLP）领域已然成为一个新范式，如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉（CV）领域。那么未来，Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？今后的研究思路又有哪些？微

Transformer 模型在自然语言处理（NLP）领域已然成为一个新范式，如今越来越多的研究在尝试将 Transformer 模型强大的建模能力应用到计算机视觉（CV）领域。那么未来，Transformer 会不会如同在 NLP 领域的应用一样革新 CV 领域？今后的研究思路又有哪些？微软亚洲研究院多媒体搜索与挖掘组的研究员们基于 Vision Transformer 模型在图像和视频理解领域的最新工作，可能会带给你一些新的理解。

作为一个由自注意力机制组成的网络结构，Transformer一“出场”就以强大的缩放性、学习长距离的依赖等优势，替代卷积神经网络（CNN）、循环神经网络（RNN）等网络结构，“席卷”了自然语言处理（NLP）领域的理解、生成任务。

然而，Transformer 并未止步于此，2020年，Transformer 模型首次被应用到了图像分类任务中并得到了比 CNN 模型更好的结果。此后，不少研究都开始尝试将 Transformer 模型强大的建模能力应用到计算机视觉领域。目前，Transformer 已经在三大图像问题上——分类、检测和分割，都取得了不错的效果。视觉与语言预训练、图像超分、视频修复和视频目标追踪等任务也正在成为 Transformer “跨界”的热门方向，在 Transformer 结构基础上进行应用和设计，也都取得了不错的成绩。

Transformer“跨界”图像任务

最近几年，随着基于 Transformer 的预训练模型在 NLP 领域不断展现出惊人的能力，越来越多的工作将 Transformer 引入到了图像以及相关的跨模态领域，Transformer 的自注意力机制以其领域无关性和高效的计算，极大地推动了图像相关任务的发展。

端到端的视觉和语言跨模态预训练模型

视觉-语言预训练任务属于图像领域，其目标是利用大规模图片和语言对应的数据集，通过设计预训练任务学习更加鲁棒且具有代表性的跨模态特征，从而提高下游视觉-语言任务的性能。

现有的视觉-语言预训练工作大都沿用传统视觉-语言任务的视觉特征表示，即基于目标检测网络离线抽取的区域视觉特征，将研究重点放到了视觉-语言（vision-language，VL）的特征融合以及预训练上，却忽略了视觉特征的优化对于跨模态模型的重要性。这种传统的视觉特征对于 VL 任务的学习主要有两点问题：

1）视觉特征受限于原本视觉检测任务的目标类别

2）忽略了非目标区域中对于上下文理解的重要信息

（编辑：平凉站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何策划数据可视化平	新时代开源数据调度在
终于有人把元数据说明	如何使用技术处理方案