人工智能的多模态融合模型的简介、发展以及未来趋势

多模态融合模型的简介

" 模态 "（Modality）是德国理学家赫尔姆霍茨提出的一种生物学概念，即生物凭借感知器官与经验来接收信息的通道，如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

不同模态（例如图像、文本、音频）中学习的方式存在很大差异。

为了让人工智能在理解我们周围的世界方面取得进展，它需要能够解释和推理关于多模态信息。多模态机器学习旨在建立能够处理和关联来自多种模态信息的模型。从早期的视听语音识别研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的多学科领域，其重要性日益增加，具有非凡的潜力。

早期的深度学习算法专注于从一个单一的数据源训练其模型。例如，看—基于图像训练的CV模型和基于文本训练的NLP模型，听—基于声学模型的唤醒词检测、噪音消除的语音处理。早期的深度学习与单模态人工智能有关，其结果都被映射到一个单一的数据类型来源。而多模态人工智能是计算机视觉和交互式人工智能智能模型的最终融合，为计算器提供更接近于人类感知的场景。

多模态学习成为当中的重要趋势，它可以被应用在归一、表示、转化、翻译、对齐、融合及协同学习上(representation/translation/alignment/fusion/co-learning)。按照下游任务则可以划分为理解式任务(视觉问答、视觉推理、图文检索等)和生成式任务(文本生成(对话/故事/诗歌)、图像生成文本、文字生成图像等)。

多模态融合模型的发展趋势

Andrew Ng在年度总结时说道，虽然GPT-3和EfficientNet等单独针对文本及图像等任务的深度学习模型备受瞩目，但这一年中最令人印象深刻的还是，AI 模型在发现文本与图像间关系中取得了进步。，，OpenAI开启了多模态学习的重要一年，比如CLIP匹配图像和文本，Dall·E生成与输入文本对应的图像。DeepMind的Perceiver IO可以对文本、图像、视频和点云进行分类。斯坦福大学的ConVIRT为医用X射线图像添加了文本标签。

现实中，图像和文本其实非常复杂，以至于在过去，研究人员只能全神贯注的着重其中之一。在这样做的过程中，他们开发了非常不同的技术。然而，在过去十年中，计算机视觉和自然语言处理已经融合到神经网络上，为合并这两种模式的统一模型打开了大门。

Jeff Dean在长文展望中总结到，一些最先进的多模态模型可以接受语言、图像、语言和视频等多种不同的输入模态，产生不同的输出模态。这是一个令人兴奋的方向，就像真实世界一样，有些东西在多模态数据中更容易学习。例如，阅读某些东西并观看图片，比仅仅阅读它更有用。

图像和文本配对有助于多语种检索任务，并且更好地理解如何配对文本和图像输入可以提升图像描述任务。视觉和文本数据上的协同训练有助于提升视觉分类任务的准确率和稳健性，同时图像、视频和语音任务上的联合训练能够提升所有模态的泛化性能。

目前还无法建立一个通用的“视觉机器”，无法做到统一模型同时满足不同场景要求。这意味着当下机器学习的训练成本较高，也没有达到产业化应用的理想状态。要解决这个问题，需要从端到端打通各个模态之间的关系，形成可以真正多维度交互的智能机器，让感知智能升级为认知智能。

未来发展趋势，多场景下的多模态交互成为提升应用性能的重点。以多模态融合技术为核心的感知、交互和智慧协同能力，不断支撑各类终端和应用的智能化水平提升。人工智能正在从语音、文字、视觉等单模态智能，向着多种模态融合发展，结合分布式平台的计算能力，实现更高精度的场景构建，和对动态场景的处理能力。

未百度研究院认为，下一步是跨模态统一建模，增强模型的跨模态语义对齐能力。Jeff Dean认为，所有这些趋势都指向了训练能力更强的通用性模型，这些模型可以处理多种数据模态并解决数千甚至数万个任务。在接下来的几年，我们将通过下一代架构 Pathways来追求这一愿景，并期望在该领域看到实质性进展。

参考文章

Top AI Stories of : Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI

Jeff Dean长文展望：之后，机器学习领域的五大潜力趋势