一种语音识别自动化测试系统及方法与流程

本发明涉及自动化测试技术领域，特别是涉及一种语音识别自动化测试系统及方法。

背景技术：

随着语音识别技术的快速发展和应用，语音识别技术的搭载率也明显提升。目前语音识别的准确率基本超过了95％，已经成为汽车智能化领域不可或缺的一部分。为了增加语音识别的信任度，语音识别的自动化测试过程是研发阶段必不可缺少的环节，有效且准确地自动化测试系统是对应用语音识别产品有力的质量保证和服务保证。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音识别自动化测试系统及方法。

依据本发明一方面，提供了一种语音识别自动化测试系统，包括：

前端测试服务器，适于接收来自客户端的针对人工智能语音识别系统进行测试的测试请求，从所述测试请求中解析出包括待测设备类型、待测设备所处的测试背景环境和测试模式的测试配置信息，其中，所述待测设备为应用所述人工智能语音识别系统的设备；

所述前端测试服务器，还适于从本地语料数据库中查找与所述待测设备类型对应的语料集合，所述语料集合包含原始语料和原始语料期待的自然语言理解的指令信息，从本地音频数据库中查找与所述语料集合和所述测试背景环境相对应的音频数据集合，所述音频数据集合包含与所述语料集合对应的语料音频和与所述测试背景环境对应的背景音频，依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器；

所述后端测试服务器，适于依据所述测试任务中的测试模式确定合成方式，按照所述合成方式合成所述测试任务中所述音频数据集合中的语料音频和背景音频得到合成数据，将合成数据发送至云端服务器；

所述云端服务器，包括所述人工智能语音识别系统，所述人工智能语音识别系统对所述合成数据执行自动语音识别处理或自然语言理解响应处理，将处理结果返回至后端测试服务器；

所述后端测试服务器，还适于将所述测试任务中所述语料集合中的原始语料或所述原始语料期待的自然语言理解的指令信息作为预期结果与所述处理结果进行匹配，依据匹配结果生成测试结果并经由所述前端测试服务器反馈至所述客户端。

可选地，所述后端测试服务器包括测试模式确定模块，所述测试模式确定模块适于依据所述测试任务中的数字合成模式确定出数字合成方式，依据所述测试任务中的多声源模拟合成模式确定出模拟合成方式。

可选地，所述后端测试服务器还包括：针对数字合成模式设置的数字测试模块和字节码合成器，

所述数字测试模块，适于配置数字测试参数，基于所述数字测试参数、语料集合、音频数据集合创建数字测试任务，将所述数字测试任务发送至所述字节码合成器；

所述字节码合成器，适于依据数字测试任务中的数字测试参数从所述音频数据集合解析出语料音频和背景音频，将所述语料音频和背景音频按照数字合成方式合成得到音频混合字节流集合；

所述数字测试模块，还适于获取所述音频混合字节流集合并发送至所述云端服务器。

可选地，所述后端测试服务器还包括针对多声源模拟合成模式设置的模拟测试模块和声源合成模块、所述测试系统还包括待测设备，

所述模拟测试模块，适于配置模拟测试参数，基于所述模拟测试参数、语料集合、音频数据集合创建模拟测试任务，将所述模拟测试任务发送至所述声源合成模块；

所述声源合成模块，适于依据所述模拟测试任务中的模拟测试参数从所述音频数据集合解析出语料音频和背景音频，将所述语料音频和背景音频按照模拟合成方式合成模拟声源信息，将所述模拟声源信息播放或发送至所述待测设备；

所述待测设备，适于接收所述模拟声源信息，将所述模拟声源信息转换为数字信号发送至所述云端服务器。

可选地，所述后端测试服务器包括测试判决模块，

所述数字测试模块，还适于将所述语料集合发送至测试判决模块；

所述模拟测试模块，还适于将所述语料集合发送至测试判决模块；

所述测试判决模块，适于接收所述云端服务器返回的处理结果，接收所述数字测试模块或模拟测试模块发送的语料集合，将所述语料集合中的原始语料和/或所述原始语料期待的自然语言理解的指令信息作为预期结果与所述处理结果进行匹配，依据匹配结果生成测试通过或者不通过的测试结果，并经由所述前端测试服务器反馈至所述客户端。

可选地，所述测试判决模块，还适于：

将所述处理结果与所述预期结果进行匹配；

若匹配一致，则生成测试通过的测试结果；若匹配不一致，则生成测试不通过的测试结果，所述测试不通过的测试结果中包含了语料音频的自动语音识别失败标识、自然语言理解响应失败标识、测试问题信息中的至少一项；

将测试通过或测试不通过的测试结果经所述前端测试服务器反馈至所述客户端。

可选地，所述测试判决模块，还适于：

基于所述语料音频的自动语音识别失败标识和自然语言理解响应失败标识分别统计所述语料音频的自动语音识别成功率和自然语言理解响应成功率；

基于所述测试问题信息生成测试未通过的详细信息、错误数据分析内容；

将自动语音识别成功率、自然语言理解响应成功率、测试未通过的详细信息以及错误数据分析内容以测试报表形式经所述前端服务器反馈至所述客户端。

依据本发明另一方面，还提供了一种语音识别自动化测试方法，应用于前端测试服务器，所述方法包括：

接收来自客户端的针对人工智能语音识别系统进行测试的测试请求，从所述测试请求中解析出包括待测设备类型、待测设备所处的测试背景环境和测试模式的测试配置信息，其中，待测设备为应用所述人工智能语音识别系统的设备；

从本地语料数据库中查找与所述待测设备类型对应的语料集合，所述语料集合包含原始语料和原始语料期待的自然语言理解的指令信息，从本地音频数据库中查找与所述语料集合和所述测试背景环境相对应的音频数据集合，所述音频数据集合包含与所述语料集合对应的语料音频和与所述测试背景环境对应的背景音频；

依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器，由所述后端测试服务器依据所述测试模式确定合成方式，按照所述合成方式合成所述测试任务中音频数据集合中的语料音频和背景音频得到合成数据，依据预期结果和所述云端服务器的由人工智能语音识别系统针对所述合成数据执行自动语音识别处理或自然语言理解响应处理后返回的处理结果生成测试结果；

接收所述后端测试服务器返回的测试结果，将所述测试结果反馈至所述客户端。

依据本发明再一方面，还提供了一种语音识别自动化测试方法，应用于后端测试服务器，所述方法包括：

接收来自前端测试服务器的包含语料集合、音频数据集合和测试模式的测试任务，其中，所述前端测试服务器用于依据其接收到的测试请求中的待测设备类型从本地语料数据库中查找对应的所述语料集合，所述语料集合包含原始语料和原始语料期待的自然语言理解的指令信息，依据所述语料集合和测试请求中的测试背景环境从本地音频数据库中查找对应的音频数据集合，所述音频数据集合包含语料音频和背景音频，所述测试请求中还携带测试模式；

依据所述测试模式确定合成方式，按照所述合成方式合成所述音频数据集合中的语料音频和背景音频得到合成数据，将合成数据发送至云端服务器；

接收云端服务器的由人工智能语音识别系统针对所述合成数据执行自动语音识别处理或自然语言理解响应处理后返回的处理结果，将所述处理结果与预期结果进行匹配；

依据匹配结果生成测试结果，将所述测试结果经所述前端测试服务器反馈至所述客户端。

本方案针对人工智能语音识别系统的测试请求从前端测试服务器的本地语料数据库中查找相应的语料集合，并从本地音频数据库中查找与语料集合和测试背景环境相对应的音频数据集合，由于音频数据集合包含了语料音频和背景音频，且语料音频为预先录制的纯净的人的语音，背景音频是模拟不同现实场景的背景声音，如音乐声、车辆噪声等声音，进而依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器，通过后端测试服务器将语料音频和背景音频合成得到合成数据并发送至包括人工智能语音识别系统的云端服务器，以在云端服务器通过人工智能语音识别系统对合成数据执行自动语音识别处理或自然语言理解响应处理。本发明方案无需专门工作人员去到不同的室外真实环境下采集测试人工智能语音识别系统所需的原始语料和背景音频，降低了对人工智能语音识别的测试成本，同时也有效保证了应用人工智能语音识别系统的产品的语音识别质量和准确性。进一步的，相比于在室外的真实环境下采集语料音频和背景音频，以完成人工智能语音识别系统的准确性测试过程，本方案还有效避免了测试过程中由于外界各种突发情况带来的不可预知的危险。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的语音识别自动化测试系统的结构示意图；

图2示出了根据本发明另一个实施例的语音识别自动化测试系统的结构示意图；

图3示出了根据本发明一个实施例的语音识别自动化测试方法的流程示意图；

图4示出了根据本发明另一个实施例的语音识别自动化测试方法的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为解决上述技术问题，本发明实施例提供了一种语音识别自动化测试系统。图1示出了根据本发明一个实施例的语音识别自动化测试系统的结构示意图。参见图1，语音识别自动化测试系统包括客户端110、前端测试服务器120、语料数据库130、音频数据库140、后端测试服务器150和云端服务器160。

客户端110，适于向前端测试服务器120发送携带测试配置信息的针对人工智能语音识别系统进行测试的测试请求，其中，测试配置信息包括待测设备类型、测试背景环境、测试模式，其中，待测设备为应用人工智能语音识别系统的设备。

前端测试服务器120，适于接收来自客户端110的测试请求，从测试请求中解析出包括待测设备类型、测试背景环境、测试模式的测试配置信息。然后，从本地语料数据库130中查找与待测设备类型对应的语料集合，语料集合包含原始语料和原始语料期待的自然语言理解(naturallanguageunderstanding，nlu)的指令信息，从本地音频数据库140中查找与语料集合和测试背景环境相对应的音频数据集合，音频数据集合包含与语料集合对应的语料音频和与测试背景环境对应的背景音频，进而，依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器150。

该实施例中，语料集合包含原始语料指的是原始文本内容，如“我的名字是小明”、“中国首都是哪里”等文本语言，原始语料期待的自然语言理解的指令信息指的是用于针对原始文本语言进行回复的文本信息，例如，原始语料“中国首都是哪里”对应的指令信息为“中国首都是北京”等。

后端测试服务器150，适于依据测试任务中的测试模式确定合成方式，按照合成方式合成测试任务中音频数据集合中的语料音频和背景音频得到合成数据，将合成数据发送至云端服务器160。该实施例中，关于依据测试任务中的测试模式确定合成方式请参见后文内容。

云端服务器160，包括人工智能语音识别系统，人工智能语音识别系统对合成数据执行自动语音识别(automaticspeechrecognitio，asr)处理或自然语言理解响应处理，将处理结果返回至后端测试服务器150。

后端测试服务器150，还适于将接收到的处理结果与预期结果进行匹配，依据匹配结果生成测试结果并经由前端测试服务器120反馈至客户端110。

本方案针对人工智能语音识别系统的测试请求从前端测试服务器的本地语料数据库中查找相应的语料集合，并从本地音频数据库中查找与语料集合和测试背景环境相对应的音频数据集合，由于音频数据集合包含了语料音频和背景音频，且语料音频为预先录制的纯净的人的语音，背景音频为模拟不同现实场景的背景声音，如音乐声、车辆噪声等声音。进而依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器，通过后端测试服务器将语料音频和背景音频合成得到合成数据并发送至包括人工智能语音识别系统的云端服务器，以在云端服务器通过人工智能语音识别系统对合成数据执行自动语音识别处理或自然语言理解响应处理。本发明方案无需专门工作人员去到不同的室外真实环境下采集测试人工智能语音识别系统所需的原始语料和背景音频，降低了对人工智能语音识别的测试成本，同时也有效保证了应用人工智能语音识别系统的产品的语音识别质量和准确性。进一步的，相比于在室外的真实环境下采集语料音频和背景音频，以完成人工智能语音识别系统的准确性测试过程，本方案还有效避免了测试过程中由于外界各种突发情况带来的不可预知的危险。

在本发明一实施例中，客户端110可以采用http(hypertexttransferprotocol，超文本传输协议)方式将测试请求发送给前端测试服务器120，这里的前端测试服务器120指的是web服务器。

本发明实施例中的，待测设备可以是车机设备、声控设备或者音频控制设备等，因此，测试配置信息中的待测设备类型包括车机设备、声控设备以及音频控制设备的类型。测试配置信息中的测试模式包括数字合成模式、多声源模拟合成模式。另外，测试配置信息中还可以包括测试数据规模，例如，测试配置信息若包含冒烟测试信息，那么对应的测试数据规模为较小规模，若包含回归测试信息，那么对应的测试数据规模为较大规模，若包含性能测试信息，那么对应的测试数据规模为很大规模。这里的测试数据规模体现出了需要语音识别自动化测试系统测试的音频数据量的多少，通常测试数据规模大，测试的音频数据量大。当然，测试配置信息中还可以包括待测设备所属产品的型号等等信息，本发明实施例对此不做具体的限定。

本发明实施例的语料数据库130包含原始语料和原始语料期待的自然语言理解的指令信息。因此，语料集合中包含了原始语料和原始语料期待的自然语言理解的指令信息。音频数据库140中包含语料音频(原始语料转换的纯净音频)和背景音频，因此，音频数据集合包含了语料音频和背景音频。

前端测试服务器120是对从语料数据库130查找的与待测设备类型对应的原始语料和从音频数据库140中查找的音频数据集合的内容进行了整合，例如将原始语料和原始语料期待的自然语言理解的指令信息进行对应，并将原始语料和与其含义相同的音频数据对应，且将指令信息和与其含义相同的音频数据对应。进而基于整合后的内容生成测试任务，从而将测试任务发送至后端测试服务器150。

为了提高测试任务的发送效率，且避免在发送测试任务时造成数据丢失的问题，在本发明一实施例中，前端测试服务器120可以先将测试任务发送至mq(messagequeue，消息队列)，进而后端测试服务器150再从消息队列中接收测试任务。该数据传输方式其适合于客户端110发出多个测试请求的情况。当客户端110发出多个测试请求后，前端测试服务器120会针对多个测试请求生成多个测试任务，通过采取多任务消息队列的模式，能够实现将多个测试任务并行的发送到消息队列，并由后端测试服务器150从消息队列中分别接收多个测试任务，各测试任务之间的传输过程互不干扰，相互独立。消息队列可以设置在前端测试服务器120，也可以设置在后端测试服务器150，当然还可以在前端测试服务器120和后端测试服务器150之间新增一个服务器，并将消息队列设置在新增服务器上，本发明实施例对此不做具体的限定。

参见图2，在本发明一实施例中，后端测试服务器150中包括测试模式确定模块151，测试模式确定模块151用于依据测试任务中的测试模式确定出合成方式。前文已经介绍了测试请求中的测试模式包括数字合成模式、多声源模拟合成模式，因此，测试模式确定模块151可以依据测试任务中的数字合成模式确定出数字合成方式，并且依据测试任务中的多声源模拟合成模式确定出模拟合成方式。

继续参见图2，本发明实施例的后端测试服务器150还可以包括针对数字合成模式设置的数字测试模块152和字节码合成器153，下面对数字合成的过程进行介绍。

数字测试模块152先配置数字测试参数，然后基于数字测试参数、语料集合、音频数据集合创建数字测试任务，将数字测试任务发送至字节码合成器153。其中，数字测试参数包括任务数量、测试类型、结果判断模式、后端测试服务器选择等信息。其中，任务数量指的是语音识别自动化测试系统可以同时响应客户端110的测试请求的数量。测试类型包含数字测试类型和模拟测试类型，当然，数字测试参数中的测试类型为数字测试类型，测试类型还包含对音频数据识别的方式，包含自动语音识别类型、自然语言理解响应类型。结果判断模式为针对自动语音识别结果的判断和针对自然语言理解响应结果的判断，即包含自动语音识别结果判断模式、自然语言理解响应结果判断模式。后端测试服务器150选择，即可以选一个或多个后端测试服务器150处理测试任务，选择后端测试服务器150的数量需要参考任务数量以及云端服务器160的处理能力，若任务数量多，可以多选择一些后端测试服务器150，若云端服务器160的处理能力强，也可以多选择一些后端测试服务器150。

字节码合成器153依据数字测试任务中的数字测试参数从语料集合解析出原始语料，并且从音频数据集合解析出语料音频和背景音频，将语料音频和背景音频按照数字合成方式合成得到音频混合字节流集合(即合成数据)。进而，数字测试模块152获取音频混合字节流集合并发送至云端服务器160。多音频字节码的数字合成方式有多种技术方案可以选择，例如，可以采用程序编码技术实现合成，也可以采用第三方软件合成，音频混合字节流集合包含消息头、消息体、消息结尾等信息。音频混合字节流集合中的字节码以列表数组方式存储。

后端测试服务器150的数字测试模块152可以采用http的请求方式将音频混合字节流集合发送至云端服务器160，对于多个测试任务的音频混合字节流集合采用并行发送的方式，以提高数据处理能力。

继续参见图2，本发明实施例的后端测试服务器150还可以包括针对多声源模拟合成模式设置的模拟测试模块154和声源合成模块155，测试系统还包括待测设备156。下面对多声源模拟合成的过程进行介绍。

模拟测试模块154先配置模拟测试参数，然后基于模拟测试参数、语料集合、音频数据集合创建模拟测试任务，将模拟测试任务发送至声源合成模块155。其中，模拟测试参数可以包括播放模式、音频数据格式转换方式等参数。该实施例中，播放模式为声源合成模块155播放模拟声源信息的播放方式。音频数据格式转换方式包括在将声源合成模块155合成模拟声源信息时对语料音频和背景音频的格式转换方式。

声源合成模块155依据模拟测试任务中的模拟测试参数从音频数据集合解析出语料音频和背景音频，将语料音频和背景音频按照模拟合成方式合成模拟声源信息，将模拟声源信息播放或发送至待测设备156。该实施例中，模拟合成方式可以采用多路模拟合成技术，当然还可以采用方位播放合成技术，本发明实施例对此不做具体的限定。声源合成模块155可以采用音频合成器，当然还可以采用其他的声源合成设备，本发明实施例对此不做具体的限定。

待测设备156接收模拟声源信息，并依据模拟声源信息生成云端指令，将云端指令发送至云端服务器160。该实施例中，待测设备156能够将合成的模拟声源信息发送至云端服务器160，也可以接收云端服务器160针对模拟声源信息的处理结果。

本发明实施例中，在测试系统采用数字合成模式时无需设置待测设备，而是直接将字节码合成器153合成的数据发送至云端服务器160，在云端服务器160利用人工智能语音识别系统对合成数据进行自动语音识别处理或自然语言理解响应处理，从而能够有效地测试出人工智能语音识别系统的识别准确性。在多声源模拟合成模式下，通过引入待测设备156且待测设备156应用云端服务器160的人工智能语音识别系统进行识别，测试设备156接收到模拟声源信息后将其转换为数字信号并发送至云端服务器160，从而可以不仅可以测试人工智能语音识别系统的识别准确性，还可以在一定程度上根据云端服务器返回的测试结果了解到待测设备156将模拟声源信息转换为数字信号的准确性，如果在数字合成模式下测试到人工智能语音识别系统的识别准确度较高，但是在多声源模拟合成模式下测试到的人工智能语音识别系统的识别准确度较低，那么很有可能是待测设备156存在问题。

继续参见图2，在本发明实施例中，后端测试服务器150还包括测试判决模块157。数字测试模块152和模拟测试模块154均可以将语料集合发送至测试判决模块157。测试判决模块157接收数字测试模块152、模拟测试模块154发送的语料集合，并接收云端服务器160返回的处理结果。通过将语料集合中的原始语料和/或原始语料期待的自然语言理解的指令信息作为预期结果与处理结果进行匹配，从而可以依据匹配结果生成测试结果，并经由前端测试服务器120反馈至客户端110。

在本发明一实施例中，测试判决模块157可以将处理结果与预期结果进行匹配。若匹配一致，即匹配结果为pass，则生成测试通过的测试结果。若匹配不一致，即匹配结果为fail，则生成测试不通过的测试结果。将测试通过或测试不通过的测试结果经前端测试服务器120反馈至客户端110。其中，测试不通过的测试结果中包含了语料音频的自动语音识别失败标识、自然语言理解响应失败标识、测试问题信息等等。

在本发明实施例中，云端服务器160中的人工智能语音识别系统可以针对合成数据执行自动语音识别处理，也可以针对合成数据执行自然语言理解响应处理。

若云端服务器160的人工智能语音识别系统针对合成数据执行自动语音识别处理，则将自动语音识别结果返回至后端测试服务器150的测试判决模块157，测试判决模块157将处理结果与原始语料进行匹配，若匹配一致，即人工智能语音识别系统针对合成数据执行自动语音识别处理所识别出的内容与原始语料的内容一致，则测试通过。若云端服务器160的人工智能语音识别系统针对合成数据执行自然语言理解响应处理，则可以将自然语言理解响应结果返回至后端测试服务器150的测试判决模块157，测试判决模块157将处理结果与原始语料期待的自然语言理解的指令信息进行匹配，若匹配一致，即人工智能语音识别系统针对合成数据执行自然语言理解响应处理所理解出的内容与原始语料期待的自然语言理解的指令信息的内容一致，则测试通过。若云端服务器160的人工智能语音识别系统针对合成数据同时执行自动语音识别处理和自然语言理解响应处理，那么将自动语音识别结果和自然语言理解响应结果返回至后端测试服务器150的测试判决模块157，并由测试判决模块157与预期结果进行匹配。

本发明实施例还可以依据测试结果生成对应的测试报表，进而将测试报表发送至前端服务器，并由前端服务器将测试报表发送至客户端110。

具体的，基于上文介绍的测试结果中的语料音频的自动语音识别失败标识以及自然语言理解响应失败标识分别统计语料音频的自动语音识别成功率和自然语言理解响应成功率，基于测试问题信息生成测试未通过的详细信息和错误数据分析内容。进而将自动语音识别成功率、自然语言理解响应成功率、测试未通过的详细信息、错误数据分析内容以测试报表形式经前端服务器反馈至客户端。该实施例中，自动语音识别成功率为云端服务器的由人工智能语音识别系统对音频数据进行自动语音识别时的识别成功概率，自然语言理解响应成功率为云端服务器的由人工智能语音识别系统对音频数据进行自然语言理解时的成功概率，测试未通过的详细信息可以包含每一句音频数据的识别结果信息，错误数据分析内容可以是依据测试问题信息对识别的错误原因进行分类后得到的错误原因分类内容。

基于同一发明构思，本发明实施例还提供了一种语音识别自动化测试方法，应用于前端测试服务器。图3示出了根据本发明一个实施例的语音识别自动化测试方法的流程示意图。参见图3，该方法至少包括步骤s302至步骤s308。

步骤s302，接收来自客户端的针对人工智能语音识别系统进行测试的测试请求，从测试请求中解析出包括待测设备类型、待测设备所处的测试背景环境和测试模式的测试配置信息，其中，待测设备为应用人工智能语音识别系统的设备。

步骤s304，从本地语料数据库中查找与待测设备类型对应的语料集合，语料集合包含原始语料和原始语料期待的自然语言理解的指令信息，从本地音频数据库中查找与语料集合和测试背景环境相对应的音频数据集合，音频数据集合包含与语料集合对应的语料音频和与测试背景环境对应的背景音频。

步骤s306，依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器，由后端测试服务器依据测试模式确定合成方式，按照合成方式合成测试任务中音频数据集合中的语料音频和背景音频得到合成数据，依据预期结果和云端服务器的由人工智能语音识别系统针对合成数据执行自动语音识别处理或自然语言理解响应处理后返回的处理结果生成测试结果。

步骤s308，接收后端测试服务器返回的测试结果，将测试结果反馈至客户端。

基于同一发明构思，本发明实施例还提供了另一种语音识别自动化测试方法，应用于后端测试服务器。图4示出了根据本发明另一个实施例的语音识别自动化测试方法的流程示意图。参见图4，该方法至少包括步骤s402至步骤s408。

步骤s402，接收来自前端测试服务器的包含语料集合、音频数据集合和测试模式的测试任务，其中，前端测试服务器用于依据其接收到的测试请求中的待测设备类型从本地语料数据库中查找对应的语料集合，语料集合包含原始语料和原始语料期待的自然语言理解的指令信息，依据语料集合和测试请求中的测试背景环境从本地音频数据库中查找对应的音频数据集合，音频数据集合包含语料音频和背景音频，测试请求中还携带测试模式。

步骤s404，依据测试模式确定合成方式，按照合成方式合成音频数据集合中的语料音频和背景音频得到合成数据，将合成数据发送至云端服务器。

步骤s406，接收云端服务器的由人工智能语音识别系统针对合成数据执行自动语音识别处理或自然语言理解响应处理后返回的处理结果，将处理结果与预期结果进行匹配。

步骤s408，依据匹配结果生成测试结果，将测试结果经前端测试服务器反馈至客户端。

根据上述任意一个优选实施例或多个优选实施例的组合，本发明实施例能够达到如下有益效果：

在本发明实施例中，针对人工智能语音识别系统的测试请求从前端测试服务器的本地语料数据库中查找相应的语料集合，并从本地音频数据库中查找与语料集合和测试背景环境相对应的音频数据集合，由于音频数据集合包含了语料音频和背景音频，且语料音频为预先录制的纯净的人的语音，背景音频是模拟不同现实场景的背景声音，如音乐声、车辆噪声等声音，进而依据语料集合、音频数据集合和测试模式生成测试任务发送至后端测试服务器，通过后端测试服务器将语料音频和背景音频合成得到合成数据并发送至包括人工智能语音识别系统的云端服务器，以在云端服务器通过人工智能语音识别系统对合成数据执行自动语音识别处理或自然语言理解响应处理。本发明方案无需专门工作人员去到不同的室外真实环境下采集测试人工智能语音识别系统所需的原始语料和背景音频，降低了对人工智能语音识别的测试成本，同时也有效保证了应用人工智能语音识别系统的产品的语音识别质量和准确性。进一步的，相比于在室外的真实环境下采集语料音频和背景音频，以完成人工智能语音识别系统的准确性测试过程，本方案还有效避免了测试过程中由于外界各种突发情况带来的不可预知的危险。

所属领域的技术人员可以清楚地了解到，上述描述的方法的具体工作过程，可以参考前述系统实施例中的对应过程，为简洁起见，在此不另赘述。

另外，在本发明各个实施例中的各功能单元可以物理上相互独立，也可以两个或两个以上功能单元集成在一起，还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现，也可以采用软件或者固件的形式实现。

本领域普通技术人员可以理解：集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，其包括若干指令，用以使得一台计算设备(例如个人计算机，服务器，或者网络设备等)在运行指令时执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom)、随机存取存储器(ram)，磁碟或者光盘等各种可以存储程序代码的介质。

或者，实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机，服务器，或者网络设备等的计算设备)来完成，程序指令可以存储于一计算机可读取存储介质中，当程序指令被计算设备的处理器执行时，计算设备执行本发明各实施例方法的全部或部分步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：在本发明的精神和原则之内，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案脱离本发明的保护范围。

技术特征：

1.一种语音识别自动化测试系统，包括：

2.根据权利要求1所述的系统，其中，

所述后端测试服务器包括测试模式确定模块，所述测试模式确定模块适于依据所述测试任务中的数字合成模式确定出数字合成方式，依据所述测试任务中的多声源模拟合成模式确定出模拟合成方式。

3.根据权利要求2所述的系统，其中，所述后端测试服务器还包括：针对数字合成模式设置的数字测试模块和字节码合成器，

所述数字测试模块，还适于获取所述音频混合字节流集合并发送至所述云端服务器。

4.根据权利要求3所述的系统，其中，所述后端测试服务器还包括针对多声源模拟合成模式设置的模拟测试模块和声源合成模块、所述测试系统还包括待测设备，

所述待测设备，适于接收所述模拟声源信息，将所述模拟声源信息转换为数字信号发送至所述云端服务器。

5.根据权利要求4所述的系统，其中，所述后端测试服务器包括测试判决模块，

所述数字测试模块，还适于将所述语料集合发送至测试判决模块；

所述模拟测试模块，还适于将所述语料集合发送至测试判决模块；

6.根据权利要求5所述的系统，其中，所述测试判决模块，还适于：

将所述处理结果与所述预期结果进行匹配；

将测试通过或测试不通过的测试结果经所述前端测试服务器反馈至所述客户端。

7.根据权利要求5所述的系统，其中，所述测试判决模块，还适于：

基于所述语料音频的自动语音识别失败标识和自然语言理解响应失败标识分别统计所述语料音频的自动语音识别成功率和自然语言理解响应成功率；

基于所述测试问题信息生成测试未通过的详细信息、错误数据分析内容；

8.一种语音识别自动化测试方法，应用于前端测试服务器，所述方法包括：

接收所述后端测试服务器返回的测试结果，将所述测试结果反馈至所述客户端。

9.一种语音识别自动化测试方法，应用于后端测试服务器，所述方法包括：

依据所述测试模式确定合成方式，按照所述合成方式合成所述音频数据集合中的语料音频和背景音频得到合成数据，将合成数据发送至云端服务器；

依据匹配结果生成测试结果，将所述测试结果经所述前端测试服务器反馈至所述客户端。

技术总结

本发明提供了一种语音识别自动化测试系统及方法，该系统包括客户端、前端测试服务器、后端测试服务器、云端服务器，前端测试服务器接收客户端发送的包括待测设备类型、测试背景环境、测试模式的测试请求，从本地语料数据库中查找与待测设备类型对应的语料集合，从本地音频数据库中查找与语料集合和测试背景环境相对应的音频数据集合，将语料集合、音频数据集合和测试模式生成的测试任务发送至后端测试服务器；后端测试服务器采用与测试模式对应的合成方式对语料集合和音频数据集合进行合成得到合成数据，将云端服务器的人工智能语音识别系统针对合成数据的识别结果和预期结果进行匹配并依据匹配结果得到测试结果。

技术研发人员：王中平;秦波;钟科

受保护的技术使用者：湖北亿咖通科技有限公司

技术研发日：.09.23

技术公布日：.01.10