2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

时间:2018-08-30 11:00:27

相关推荐

语音合成(speech synthesis)方向十一:聊一聊增量式语音合成(iTTS)进化史

声明:工作以来主要从事TTS,VC以及ASR等等相关工作,平时看些文章做些笔记。文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_paper.html TTS 开源数据 http://yqli.tech/page/data.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

(本文稍长,希望大家看完,而不是收藏之后等以后慢慢看)

大家平时对Incremental TTS(iTTS)关注较少,可能会问iTTS是如何工作?完成那些工作?对于iTTS的介绍屈指可数,今年出来的几篇语音合成的survey(可以参考语音合成论文优选:语音合成综述()https://mp./s/m6juWxML0E_e83fvs4k0Aw)也没有相关主题的总结,因此我这里就唠一唠该方向的研究。iTTS主要是根据部分语境(当前word以及前边已经观察到的word序列)来合成音频,其研究没有被重视的原因主要其语音质量无法与整句合成效果好,但其latency理论上是纯正的streaming。再进入主题之前,我先把几个术语捋一捋。ASR很多研究涉及streaming,该streaming对应本文的increamental,因此我们称增量式tts为streamingTTS或者increamental TTS。另外,real-time语音合成系统主要特点就是latency小,因此很多文章和研究人员习惯把具备局部streaming特点的TTS也称为streaming TTS(主要latency较小),这里我们没必要较真(有位朋友曾跟我探讨过streaming TTS和real-time TTS区别,其实real-time TTS是包括streaming TTS)。接下来我们进入主题。

本文主要讲解以下的几篇文章

segment-level的iTTS

1 Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework

.09

https://ahcweb01.naist.jp/papers/conference//09_SSW_tomoya-ya_1/09_SSW_tomoya-ya_1.paper.pdf

使用futurecontext的探索研究

2 What the Future Brings: Investigating the Impact of Lookahead for Incremental Neural TTS

.09.04

/pdf/.02035.pdf

3Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

.02.15

/pdf/2102.09914.pdf

4Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model

.04.14

/pdf/.12612.pdf

5 Low-Latency Incremental Text-to-SpeechSynthesis with Distilled Context Prediction Network

.09.22

/pdf/2109.10724.pdf

局部streaming,但具备更多的落地场景

6High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

interspeech

https://www.isca-/archive/Interspeech_/pdfs/2464.pdf

第一篇Neural iTTS: Toward Synthesizing Speech in Real-time with End-to-end Neural Text-to-Speech Framework

这篇文章是最早在基于神经网络的TTS上进行iTTS的研究,其主要在tacotron(图1)架构上进行english和japanese的试验。该iTTS如2所示进行片段式segment的合成,即逐块chunk模式合成然后再进行拼接,结果为图5图6所示。

第二篇What the Future Brings:Investigating the Impact of Lookahead forIncremental Neural TTS

该篇文章主要探索iTTS需要具备多长的future context才能提高语音合成质量。本文是在tacotron系统上进行的实验,encoder和decoder都要做相应的处理。encoder的处理如table1所示,其中n代表一句话中该word的位置,k是向后看几步。decoder部分的如图1所示,合成增量的每部分音频,然后进行拼接。

先看一下encoder部分增量k对每个word的影响,其中对比的为原始tacotron系统full,就是处理整个句子。可以看出随着k增大,其结果趋近于原始full的结果。图3的结果亦是如此,其中选择k=2的情况,可以较好的实现iTTS。table2给出了各种参数对iTTS的效果影响。table4显示合成音频的质量受到k的大小影响。

第三篇Alternate Endings: Improving Prosody for Incremental Neural TTS with Predicted Future Text Input

上篇文章主要研究当前word受到futurecontext的影响大小。本文使用语言模型GPT2来预测该语境,来优化iTTS的自然度。详细的设计为图1所示,使用GPT2预测下一个词,然后使用声学模型和声码器合成语音。其中table1展示了集中对比系统,Ground truth为完整句子, Unkonwn k=0,不做任何处理,Ground Truth k=1,完整句子中获取下一个词,GPT2 k=1使用gpt2预测下一个, random是随机预测一下词。

该方案的结果

图2展示了时长预测,可以看出GPT2的结果是弱于全句子和GT k=1,但好于k=0和random。tabel2和table3都展示一致的结果。

第四篇Incremental Text-to-Speech Synthesis Using Pseudo Lookahead with Large Pretrained Language Model

本文相对上一篇主要添加如图1虚线所示添加textual embedding network模块,该模块通过observed segment和预测的future segment来生成context embedding信息。

该方案的实验图table 1所示bicontext把MOS和CER,WER提高很多,不断接近full-sentence。

第五篇Low-Latency Incremental Text-to-SpeechSynthesis with Distilled Context Prediction Network

以上几篇文章引入语言模型GPT2会增加时间开销,因此本文在第四篇文章基础上通过知识蒸馏方法对语言模型gpt2和contextual embedding network进行蒸馏,其student只要使用observer segment和current segment就预测contextual embedding,从而提高推理速度。

该方案的试验结果如图table 1和图4所示,相比第四篇文章,推理速度提高10倍。

第六篇High Quality Streaming Speech Synthesis with Low, Sentence-Length-Independent Latency

为了减小latency,本文提出了声学模型decoder和声码器streaming的合成系统,无论句子多长,都可以近乎常量时间返回首段音频。本文是在taotron+lpcnet系统上实现,具体的实现为图1所示。在tacotron的decoder的部分添加一个buffer,当buffer满了之后就可以进行post-net网络,(需要注意的是buffer大小要大于post-net的视野长度),同理输出的帧数大于lpcnet的encoder的感受视野就可以进行音频的合成。这样的模式可以使tacotron和lpcnet同时进行合成,而不需要等待tacotron合成整个句子的声学特征后才进行lpcnet的合成

该方案试验结果。首先table1显示r的影响,当r增加可以减少latency,但超过7以后就会急剧下降,这是因为每个step不能涵盖那么多帧的信息,而r=2的效果没有3号,可能因为还没有收敛所致。table2对比了集中常用的语音合成系统,由结果可知,本文的流模式latency几乎最低,逼近常量时间,缓慢上升是由于tacotron的encoder部分随着句子增长而增加,但该部分时间占比很小。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。