AI：人工智能的多模态融合模型的简介、发展以及未来趋势

Paper：《Multimodal Machine Learning: A Survey and Taxonomy，多模态机器学习:综述与分类》翻译与解读

人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

" 模态 "（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

不同模态（例如图像、文本、音频）中学习的方式存在很大差异。

为了让人工智能在理解我们周围的世界方面取得进展，它需要能够解释和推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，其重要性日益增加，具有非凡的潜力。

早期的深度学习算法专注于从一个单一的数据源训练其模型。例如，看—基于图像训练的CV模型和基于文本训练的NLP模型，听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。

多模态学习成为当中的重要趋势，它可以被应用在归一、表示、转化、翻译、对齐、融合及协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

Andrew Ng在年度总结时说道，虽然GPT-3和EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是，AI 模型在发现文本与图像间关系中取得了进步。，2021年，OpenAI开启了多模态学习的重要一年，比如CLIP匹配图像和文本，Dall·E生成与输入文本对应的图像。DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签。

现实中，图像和文本其实非常复杂，以至于在过去，研究人员只能全神贯注的着重其中之一。在这样做的过程中，他们开发了非常不同的技术。然而，在过去十年中，计算机视觉和自然语言处理已经融合到神经网络上，为合并这两种模式的统一模型打开了大门。

Jeff Dean在长文展望中总结到，一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态，产生不同的输出模态。这是一个令人兴奋的方向，就像真实世界一样，有些东西在多模态数据中更容易学习。例如，阅读某些东西并观看图片，比仅仅阅读它更有用。

图像和文本配对有助于多语种检索任务，并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性，同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能。

目前还无法建立一个通用的“视觉机器”，无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高，也没有达到产业化应用的理想状态。要解决这个问题，需要从端到端打通各个模态之间的关系，形成可以真正多维度交互的智能机器，让感知智能升级为认知智能。

未来发展趋势，多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力，不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。

未百度研究院认为，下一步是跨模态统一建模，增强模型的跨模态语义对齐能力。Jeff Dean认为，所有这些趋势都指向了训练能力更强的通用性模型，这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年，我们将通过下一代架构 Pathways 来追求这一愿景，并期望在该领域看到实质性进展。

参考文章

Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean长文展望：2021年之后，机器学习领域的五大潜力趋势

多模态常见应用分类

1、按照模态分类

模态分类

子分类

Language-Audio

(1.1)、Text-to-Speech Synthesis: 给定文本生成对应的声音

(1.2)、Audio Captioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

(2.1)、Audio-Visual Speech Recognition(视听语音识别)：给定某人的视频及语音进行语音识别。

(2.2)、Video Sound Separation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。

(2.3)、Image Generation from Audio: 给定声音，生成与其相关的图像。

(2.4)、Speech-conditioned Face generation：给定一段话，生成说话人的视频。

(2.5)、Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

Vision-Language

(3.1)、Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

(3.2)、Image/Video Captioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。

(3.3)、Visual Question Answering(视觉问答)：给定一个图像/视频与一个问题，预测答案。

(3.4)、Image/Video Generation from Text：给定文本，生成相应的图像或视频。

(3.5)、Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。

(3.6)、Vision-and-Language Navigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。

(3.7)、Multimodal Dialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。

2、按照功能分类

模态分类

子分类

定位相关

(1.1)、Visual Grounding：给定一个图像与一段文本，定位到文本所描述的物体。

(1.2)、Temporal Language Localization: 给定一个视频即一段文本，定位到文本所描述的动作(预测起止时间)。

(1.3)、Video Summarization from text query：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。

(1.4)、Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频，分割得到query所指示的物体。

(1.5)、Video-Language Inference: 给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。

(1.6)、Object Tracking from Natural Language Query: 给定一段视频和一些文本，进行定位匹配。

(1.7)、Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

情感分析相关

Affect Computing (情感计算)：使用语音、视觉(人脸表情)、文本信息、心电、脑电等模态进行情感识别。

其它

Medical Image：不同医疗图像模态如CT、MRI、PET

RGB-D模态：RGB图与深度图

参考文章：多模态学习综述及最新方向 - 知乎

多模态模型案例

时间

发明者

模型名称

功能

2021年1月

OpenAI

CLIP&DALL-E

功能：

DALL·E 可以基于短文本提示（如一句话或一段文字）生成对应的图像。以文搜图，按照文字描述去生成对应图片。使用艺术家萨尔瓦多 - 达利和皮克斯的瓦力的谐音来命名。

CLIP 则可以基于文本提示对图片进行分类。但是，发布之后，有研究发现 CLIP 存在种族和性别偏见问题。

原理：在众多图像-文本对上，训练大规模自回归 transformer 可以通过文本 prompt 产生具有可控结果的高保真生成模型。

例如，当文本描述为 " 一个甜甜圈形状的时钟 " 被发送到该模型时，它就可以生成以下图像。

用“大白话”精准搜图，OpenAI的CLIP惊艳了所有人 | 在线可玩_量子位-CSDN博客

意义：

(1)、开启了2021年多模态学习的新篇章。

(2)、降低了深度学习需要的数据标注量。

(3)、CLIP的zero-shot learning技术使得在各种数据集上的表现都很好（包括没见过的数据集）。

2021年5月

Google

MUM

功能：多任务统一模型

原理：通过从 75 种不同语言中挖掘出的上下文信息对用户搜索结果进行优先排序。

2021年9月

百度

DocVQA

功能：文档理解，跨模态文档理解模型ERNIE-Layout。

意义：登顶DocVQA榜首

2021年11月

NVIDIA

GauGAN2

功能：根据输入的文本/简笔画生成对应逼真的风景图、输入图像并编辑部分内容。

原理：它在一个单一的模型中结合了分割映射、修复和文本到图像的生成，使其成为一个强大的多模态工具。

意义：可以用文字和图画的混合来创造逼真的艺术。

Demo：AI Demos | NVIDIA Research

2021年11月

Microsoft

&北大

NÜWA女娲

功能：实现文本/草图转图像、图像补全、文字指示修改图像/视频、文字/草图转视频、视频预测等任务，功能异常强大。

意义：在8种包含图像和视频处理的下游视觉任务上具有出色的合成效果。

2021年12月

NVIDIA

PoE GAN

功能：文字描述、图像分割、草图、风格都可以转化为图片，它还可以同时接受以上几种输入模态的任意两种组合，这便是PoE的含义。

原理：生成器使用全局PoE-Net将不同类型输入的变化混合起来。鉴别器中，作者提出了一种多模态投影鉴别器，将投影鉴别器推广到处理多个条件输入。

意义：PoE可以在单模态输入、多模态输入甚至无输入时生成图片。当使用单个输入模态进行测试时，PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

2022年1月

百度

ERNIE-ViLG

功能：图文双向生成。

原理：它通过自回归算法将图像生成和文本生成统一建模，实现文图双向生成。

意义：文心 ERNIE-ViLG 参数规模达到 100 亿，是目前为止全球最大规模中文跨模态生成模型。刷新文本生成图像、图像描述等多个跨模态生成任务最好效果。

Demo：

文心大模型-产业级知识增强大模型

2022年1月

Facebook

&Meta

AV-HuBERT

功能：这通过输入语音音频和唇语视频两种不同形式内容，输出对应文本。

原理：它是一个多模态的自监督学习算法，该模型通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息。AV-HuBERT可以捕捉到音频和视频间的微妙联系。这和人类本身感知语言的模式很相似。

意义：尤其是在嘈杂的环境下，通过读唇可以将语言识别的准确性最高提升6倍。

2022年1月

Facebook

&Meta

data2vec

功能：应用于语音、图像和文本。

意义：在计算机视觉、语音任务上优于最佳单一用途算法，首个适用于多模态的高性能自监督算法，语音、图像文本全部SOTA。

嘈杂场景语音识别准确率怎么提？脸书：看嘴唇

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。