打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
综述 | 基于 Transformer 网络的多模态学习

Transformer 网络结构作为一种性能卓越的神经网络学习器,已经在各类机器学习问题中取得了巨大的成功。伴随着近年来多模态应用和多模态大数据的蓬勃发展,基于Transformer 网络的多模态学习已经成为了人工智能领域的前沿热点之一。

今天为大家介绍一篇基于Transformer的多模态学习的综述论文“Multimodal Learning with Transformers: A Survey”,该论文已经被IEEE TPAMI录用。

论文链接:

https://arxiv.org/abs/2206.06488 

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10123038

这篇综述论文总结了三百余篇具有代表性的论文,梳理了面向多模态任务的Transformer 相关技术的发展。全文的主要内容包括

(1)对多模态学习、Transformer 生态体系、多模态大数据时代的背景介绍;

(2)以几何拓扑的思想角度对Transformer、视觉Transformer、多模态Transformer 进行了系统性回顾和总结;

(3)从多模态预训练和面向特定多模态任务的两个维度对多模态Transformer 的应用和研究进行了总结;

(4)对多模态Transformer 模型及应用中的一些共通的技术挑战和设计思想进行了对比与总结;

(5)并且讨论了该研究社区内的一些开放问题和潜在的研究方向。

全文的主要观点和特色包括

(1)该综述的主要观点之一是,强调了Transformer 的理论优势之一是它能够以模态不可知(modality-agnostic)的方式进行工作,因而可以与各种模态及其组合进行兼容。为了支撑这个观点,该文阐述了如何从几何拓扑的角度来理解Transformer 在多模态上下文中的信号处理过程。建议将自注意力机制视为一种图式建模,通常在无先验知识的情况下,它将输入序列(单模态和多模态)建模为全连通图,自注意力机制将来自任意模态的任意标记令牌的嵌入向量建模为图上的一个节点。

(2)全文以尽可能公式化的方式在多模态上下文中讨论Transformer 的关键组件。

(3)强调了,在基于Transformer 的多模态模型中,跨模态的相互交互(例如,融合,对齐)实质上是由自注意力机制及其变体所感知并处理的。所以,从自注意力设计与演变的角度,归纳总结了基于Transformer的多模态学习实践中的公式化表达,将常见的基于Transformer的多模态交互过程归纳为了6种自注意力操作。

(4)除综述总结的内容外,该文中还穿插了很多专门的评述和讨论的段落,例如从数学的观点角度讨论了Transformer结构中的post-normalization 和 pre-normalization,再例如对Transformer结构中position embedding的理解与讨论。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
复旦大学邱锡鹏教授等「Transformers全面综述」论文
网上收集的一些有关如何阅读文献的心得
NeurIPS 2019中的Transformers
适合你找个时间好好消化的文章,大模型核心技术——Transformer架构
如何让机器人更好读懂情感?这篇入选ICASSP的论文有新解法
一定要「分词」吗?Andrej Karpathy:是时候抛弃这个历史包袱了
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服