论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理：谭亦鸣，东南大学博士生
来源：EACL‘21
链接：/.eacl-main.284.pdf

概述

本文关注将语言模型（LM）视作一个知识库，然后用于解决例如句子填空这样的NLP任务，这个做法在单语言（英语）取得了不错的效果。因此在这篇论文里，作者着重关注了以m-BERT为代表的多语言语言模型是否也能作为多语言KG适用于多语言NLP场景。他将单语LAMA数据集翻译为53种语言，并使用m-BERT作为知识库进行了实验评估，着重关注了m-BERT的可用性，和在不同语言上的性能差异性。从实验效果来看，首先m-BERT在部分语言上能够实现和单语LAMA实验类似的效果，另一方面，m-BERT虽然基于104weikipedia训练得到，但是依然存在语言偏置

背景与动机

单语上，使用预训练模型作为知识库（不做微调的情况下）来完成一些自然语言处理任务例如简单的文本生成，模板填空等，已经被证明是有效的。既然LAMA在英语但遇上已经取得了许多研究进展，作者对多语言预训练模型上是否也同样有效产生好奇，论文主要围绕三个问题进行展开：

1.M-BERT是否也能被当作一个多语言知识库来使用，这对于方法发展的多样性和可用性非常重要2.M-BERT作为知识库是否在不同语言上有性能差异，或者它不受语言不同的影响3.M-BERT相比单语模型包含了更多语言（104种）的训练数据，这些是否会在性能上带来额外的影响

贡献

作者总结论文的主要贡献如下：

1.论文建立了一个多语言版本（覆盖53种语言）的TREx以及GooleRE2.提出了一种“实体类型+模板”的模式替换传统“挖空查询”，并证明它具有更好的效果3.实验论证了M-BERT在不同语言上回答查询的性能差别明显4.论文论证了M-BERT作为知识库应用时存在语言偏向，例如当查询由意大利语构成，那么查询得到的实体往往也是意大利语的5.跨语言池化预测能够大幅提升实验性能，甚至优于英语单语BERT