2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 论文阅读笔记(一)《Sequence to Sequence Learning with Neural Networks》

论文阅读笔记(一)《Sequence to Sequence Learning with Neural Networks》

时间:2022-07-07 16:15:55

相关推荐

论文阅读笔记(一)《Sequence to Sequence Learning with Neural Networks》

论文下载链接:/pdf/1409.3215.pdf

创新点:

针对神经网络(DNN)不能用于将序列映射到序列的问题,提出一种通用的端到端序列学习方法。

论文内容:

DNN:语音识别、视觉对象识别

优势:可以执行任意并行计算的适当数目的步骤。

局限性:只能应用于输入和目标能够合理编码固定维向量的问题。

长短期记忆神经网络(LSTM):将可变长度的输入句子映射成一个固定维度的向量。

传统的序列-序列模型:

当输入和输出对齐时,输入序列通过一个循环神经网络(RNN)被压缩成一个固定向量,再经过一个循环神经网络,将这个固定向量再转化成序列输出。

本文的模型与传统的模型有三点不同:

1、输入序列通过一个LSTM压缩成一个fixed-dimensional向量,然后再经过一个LSTM转化成序列进行输出。(可以在忽略不计的计算成本下增加数量模型参数,并使同时在多语言对上训练LSTM变得自然)

2、本文发现深层的长短期记忆神经网络效果好过浅层的LSTM,所以本文选择了4层的LSTM。

3、颠倒输入句子的单词顺序会使该模型效果更好。

数据验证:

在WMT’ 14数据集的英语到法语翻译任务中,LSTM生成的翻译在整个测试集中获得了34.8分的BLEU分数,而LSTM的BLEU分数在词汇外的单词上被扣分。此外,LSTM在长句子上也没有困难。相比之下,基于短语的SMT系统在同一数据集上的BLEU得分为33.3。当我们使用LSTM对上述SMT系统产生的1000个假设进行重新排序时,其BLEU得分增加到36.5,接近之前该任务的最佳结果。

LSTM还学习了对词序敏感、对主动语态和被动语态相对不变的合理短语和句子表征。针对源句颠倒、目标句没有颠倒的情况,LSTM的效果更好。

数据验证:

总结:

作为一个简单、直接、相对未优化的模型,LSTM明显优于SMT系统。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。