2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > (一)人工智能与机器语言翻译简介

(一)人工智能与机器语言翻译简介

时间:2023-06-19 06:07:01

相关推荐

(一)人工智能与机器语言翻译简介

目录

介绍

机器翻译简史

LSTM网络如何处理MT

SMT简而言之

下一步

下载原文件 -- 3.5k

介绍

谷歌翻译的效果非常好,它通常看起来很神奇。但这不是魔法——这是深度学习!

在本系列文章中,我们将向您展示如何使用深度学习来创建自动翻译系统。本系列可被视为分步教程,可帮助您理解和构建神经元机器翻译。

本系列假设您熟悉机器学习的概念:模型训练、监督学习、神经网络以及人工神经元、层和反向传播。

在深入了解使用深度学习(DL)进行翻译的具体细节之前,让我们快速了解一下机器翻译(MT)。

机器翻译简史

MT的概念,或使用机器自动将文本从一种自然语言翻译成另一种语言的能力可以追溯到1949年,当时Warren Weaver制定了主要的MT原则。最初,MT是使用专家规则(RBMT) 完成的,这需要人工翻译的大量工作。然后,在1970年代后期,统计机器翻译(SMT)出现并迅速蓬勃发展,尤其是在IBM资助的Candide项目的帮助下。

SMT基于计算从文本语料库(原始语言和目标语言)中提取的词和句子对之间最可能的关系。SMT一直统治着MT领域,直到2000年,当时提出将神经网络应用于MT——神经机器翻译(NMT)——作为替代方案。

虽然NMT一开始并不成功,但多年来取得了令人瞩目的进步。随着最近AI处理能力(GPU卡等)的增长,NMT开始提供优于SMT的结果。

随着对DL和长短期记忆(LSTM)设计的持续研究,NMT获得了越来越令人兴奋的结果;NMT取代商业翻译软件中的大多数SMT可能只是时间问题。

深度学习擅长MT,因为它旨在创造一个人工大脑。理论上,人脑能做的一切,深度学习系统也能做。此外,LSTM——一种深度学习技术,或者更准确地说,一种循环神经网络(RNN)——在回忆和检测时间模式方面有着前所未有的记录。当将自然语言句子视为单词的条件时间序列或作为马尔可夫过程的结果时,这非常有用。

LSTM网络如何处理MT

SMT简而言之

让我们专注于我们的LSTM在MT上下文中如何工作,首先简要描述SMT的主要原理。

该功能基于并行语料库。这本质上是一个“超级词典”——通常来自专业翻译人员或高年级学生——它可以匹配两种语言的单词或句子对。

SMT和NMT都使用平行语料库。SMT将输入的句子分成词组,然后使用概率找到最可能的匹配组合。

SMT,例如Moses,将从训练数据创建翻译模型并将该模型应用于任何输入。结果是目标语言中条件概率得分最高的句子。

互联网上的许多资源都提供了自然语言的平行语料库。很好的例子,包括喜欢的网站Tatoeba项目和Linguee。

来自网站的平行语料库。

Tatoeba项目为各种语言提供制表符分隔的双语序列对。例如,英语/荷兰语平行语料库包含大约50,000行翻译对。

来自Tatoeba项目的平行语料库(英语/荷兰语)。

通常SMT会为输入语言的非平行语料库创建语言模型。

然后使用翻译模型和语言模型,可能连同词典模型和对齐模型,使用贝叶斯规则和最大似然(MLE)估计器计算一系列概率。MLE对选项进行评分,MT选择目标语言中MLE分数最高的句子。换句话说,它选择最匹配输入句子的那个。通过计算条件概率,估计器(例如MLE分数)可以为翻译的句子提供候选值。

下一步

既然我们已经快速浏览了AI语言翻译的历史并对它的工作原理有了一个高层次的了解,现在是时候深入了解细节了。该系列的下一篇文章有点学术性,但它对于培养对AI翻译工作原理的直观理解非常有帮助。

如果您更喜欢直接查看代码以便开始创建自己的翻译模型,那也没关系!在这种情况下,您可以安全地跳转到用于构建AI语言自动翻译系统的工具。

/Articles/5299745/A-Brief-Introduction-to-AI-and-Machine-Language-Tr

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。