LIVE 预告 | 哈工大微软：多任务多语言多模态的预训练模型

LIVE 预告 | 哈工大微软：多任务多语言多模态的预训练模型 | CVPR21系列

时间：2022-08-11 12:26:30

LIVE 预告 | 哈工大微软：多任务多语言多模态的预训练模型 | CVPR21系列

国际计算机视觉与模式识别会议（CVPR）是计算机视觉领域三大顶会之一（另外两个分别为ICCV、ECCV）。作为计算机视觉领域一年一度的盛会，CVPR每年接收论文的情况，基本可以代表一年中计算机视觉领域的发展趋势。

CVPR 大会将于6月19日至 25日线上举行，中国科学院院士谭铁牛将担任 CVPR 四位大会主席之一。今年CVPR 共有7015篇有效投稿，其中进入Decision Making阶段的共有约5900篇，最终有1663篇突出重围被接收，录用率大概为23.7%（1663/7015）。

为促进同行之间的交流与合作，智源社区将举办系列CVPR 预讲报告，欢迎关注。

报告详情

报告主题（ch）：M3P：多任务、多语言、多模态的预训练模型

报告主题（en）：M3P: A Multitask Multilingual Multimodal Pre-trained Model

报告时间：3月12日19:00~20:00

报告形式：线上（Zoom会议+ 智源Hub + B站直播）

讲者介绍：倪旻恒，哈尔滨工业大学计算机科学本科在读，微软亚洲研究院NLC组实习生，主要研究方向为多模态以及多语言。

报告摘要：

近年来预训练模型得到了广泛的应用，它们自然语言处理以及计算机视觉中的作用都得到了验证。不仅如此，现有的预训练模型也已经扩展到了多语言单模态场景或者单语言多模态场景中。在这篇论文中，我们提出了一种多任务、多语言、多模态预训练模型(Multitask Multilingual Multimodal Pre-trained Model，M3P)，通过多任务学习和权值共享，将多语言-单模态预训练和单语言-多模态预训练结合到一个统一的框架中。该模型将学习一个通用表示，该表示可以将出现在不同形式或不同语言中的对象映射到共同语义空间中的向量。此外，为了缓解多语言多模态预训练数据的缺失，我们在预训练过程中应用了Code-switching，显著提高了模型在低资源语言上的表现。

为了验证M3P的泛化能力，我们针对多语言图文检索(Multilingual Image-text Retrieval)任务对预训练模型进行微调。评估表明，M3P可以（1）相比于多模态英语预训练的SOTA模型，M3P获得了可比的结果；（2）在非英语多模态任务上特别是低资源场景下，获得了SOTA结果。

论文链接：/pdf/.02635.pdf（最近会更新为新版）

观看方式：

智源社区Hub直播：（点击【阅读原文】或扫描下方二维码）

（社区报名，可收到短信定时提醒）

Zoom 观看：/j/67732456985（无密码）

B站直播：/21484823

欢迎加入智源CVPR兴趣组

（加入CVPR兴趣组，共同讨论最新进展）

CVPR 研究组成员招募

智源社区作为一个以构建高度合作为目的的人工智能社区，为了推动人工智能领域，特别是计算机视觉领域研究者和从业者之间的交流和合作，我们将组织「CVPR 兴趣研究组」（以下简称“CVPR研究组”），以在线合作的方式来推动CVPR的交流工作。

CVPR研究组将以在读硕博为主要群体，围绕「CVPR」会议做（但不限于）以下工作，包括撰写论文解读文章、邀请并主持CVPR论文报告、专题讨论及领域进展分析等，以期促进大家的研究工作，并激发研究灵感，做出创新研究。