创新点：

针对神经网络（DNN）不能用于将序列映射到序列的问题，提出一种通用的端到端序列学习方法。

论文内容：

DNN：语音识别、视觉对象识别

优势：可以执行任意并行计算的适当数目的步骤。

局限性：只能应用于输入和目标能够合理编码固定维向量的问题。

长短期记忆神经网络（LSTM）：将可变长度的输入句子映射成一个固定维度的向量。

传统的序列-序列模型：

当输入和输出对齐时，输入序列通过一个循环神经网络（RNN）被压缩成一个固定向量，再经过一个循环神经网络，将这个固定向量再转化成序列输出。

本文的模型与传统的模型有三点不同：

1、输入序列通过一个LSTM压缩成一个fixed-dimensional向量，然后再经过一个LSTM转化成序列进行输出。（可以在忽略不计的计算成本下增加数量模型参数，并使同时在多语言对上训练LSTM变得自然）

2、本文发现深层的长短期记忆神经网络效果好过浅层的LSTM，所以本文选择了4层的LSTM。

3、颠倒输入句子的单词顺序会使该模型效果更好。

数据验证：

在WMT’ 14数据集的英语到法语翻译任务中，LSTM生成的翻译在整个测试集中获得了34.8分的BLEU分数，而LSTM的BLEU分数在词汇外的单词上被扣分。此外，LSTM在长句子上也没有困难。相比之下，基于短语的SMT系统在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时，其BLEU得分增加到36.5，接近之前该任务的最佳结果。

LSTM还学习了对词序敏感、对主动语态和被动语态相对不变的合理短语和句子表征。针对源句颠倒、目标句没有颠倒的情况，LSTM的效果更好。

数据验证：

总结：

作为一个简单、直接、相对未优化的模型，LSTM明显优于SMT系统。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。