微软亚洲研究院NLP与语音领域

1. Unified Language Model Pre-training for Natural Language Understanding and Generation

论文链接：/abs/1905.03197

代码/模型 (UniLM):/microsoft/unilm

该工作将双向、单向、序列到序列的语言模型进行了统一，通过共享参数对多种语言模型进行学习，使得同一个预训练模型可以同时支持自然语言理解及自然语言生成的下游任务。此论文发表于NeurlPS 。

2. Unicoder: A Universal Language Encoder by Pre-training with Multiple Cross-lingual Tasks

论文链接：/abs/1909.00964

该论文提出跨语言预训练模型Unicoder，通过设计5种不同的跨语言预训练任务，在XNLI和XQA任务上取得了state-of-the-art的效果。该论文已在EMNLP 上发表。

3. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

论文链接：/abs/1908.06066

该论文提出跨模态预训练模型Unicoder-VL，通过设计3种不同的跨模态预训练任务，在MSCOCO和Flicker图-文搜索任务上取得了state-of-the-art的效果。该论文已在AAAI 上发表。

4. VL-BERT: Pre-training of Generic Visual-Linguistic Representations

论文链接：/abs/1908.08530

代码/模型 (VL-BERT):/jackroos/VL-BERT

该论文提出跨语言预训练模型VL-BERT，基于单模态和多模态任务进行多任务预训练，在VQA、VCR和referring expression comprehension任务上取得了state-of-the-art的效果。该论文已在ICLR 上发表。

5. FastSpeech: Fast, Robust, and Controllable Text to Speech

论文链接：/pdf/1905.09263.pdf

该论文提出的非自回归深度模型FastSpeech把mel spectrum的生成速度提速270倍，端到端的语音生成速度提速~40倍，实际使用效果非常好。文章发表在NeurIPS 。

6. PHASEN: A Phase-and-Harmonics-Aware Speech Enhancement Network

论文链接：/abs/1911.04697

论文中提出了关注相位和谐波的语音增强模型 PHASEN (Phase-and-Harmonics-Aware Speech Enhancement Network)。该模型能够同时意识到相位信息以及谐波相关性，从而在 AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升，超过了其他模型在该数据集上的表现，并且在 Voice Bank + DEMAND 数据集中，四个指标均大幅超过之前的方法，一个指标与之前方法持平。该论文已在AAAI 发表。

7. Semantic Mask for Transformer based End-to-End Speech Recognition

论文链接：/abs/1912.03010

该论文提出了一种新的针对语音识别的数据增强技术SemanticMask。不同于谱增强（SpecAugment）技术掩码输入梅尔谱序列中的随机长度的某个片段，该方法随机地掩码掉某个词对应的整个片段。由于将该词的声学信息从输入序列中完全移除，训练的过程将强迫模型更多的依赖上下文信息，从而能够强化语言模型的能力。该方法在Librispeech 960小时和TedLium2的数据集上均能够显著的提高模型的性能，达到了当前业内最好的性能。其中在Librispeech 960小时的Test clean 和other上取得了2.28和5.08的WER score。

8. Bridging the Gap between Pre-Training and Fine-Tuning for End-to-End Speech Translation

论文链接：/abs/1909.07575

端到端的语音识别模型往往需要使用语音识别和机器翻译的数据来对编码器和解码器进行预训练，这种预训练方法存在网络参数浪费，网络功能不匹配，注意力机制无法预训练等多个问题。为解决这些问题，该论文提出了一种新的串联编码网络（TCEN）。TCEN能够无缝的将语音识别的编码器，机器翻译的编码器和解码器能够串联起来，从而可以显著的提高端到端语音翻译的质量。该论文已在AAAI 发表。