人工智能语音识别系统可以用到客服 – 服务器

人工智能语音识别系统可以用到客服 – 服务器 – 前端

语音作为一个交互入口，最近几年发展的很好，但是应用上目前的程度是无法彻底取代人力的。

从上述三个应用场景中：

客服目前已经存在使用人工智能语音技术，但是现阶段仍属于以节约人力为目的，而非取代人力。例如，因为有了人工智能语音技术，可以一个客服同时服务多个客户，或者在半夜无人时段，或者高峰期人员不足时段用于人力补充。

但是报警和抢救目前还没有出现即使是以人工智能语音技术为辅助的场景应用。原因很简单，目前的人机对话的准确率和召回率并不足矣不遗漏任何信息，而这两个场景对于信息的处理速度以及准确度要求非常高。

人机对话由以下部分组成：

目前主要导致人机对话处理信息遗漏的环节有以下内容：

ASR（Automatic Speech Recognition），即自动语音识别技术，类似于人的耳朵，该环节会将接收到的语音信号，转换为文本信号，这样才能让计算机做后续的处理。

NLU（Natural Language Understanding），即自然语言理解，类似于人的大脑，该环节会通过文本内容，上下文逻辑，理解说话者的真实意图。

ASR环节造成信息遗漏

上表中列出的是当前ASR的主要流程细节，大家一样一样来说。

背景噪音导致VAD无法准确响应，由于电话一般采用单声道进行通信，完全依赖手机本身对于音频的降噪处理。中国人口众多，贫富差别较大，在公共设施的110和120上要尽量满足对各种噪音环境下保证服务的速度和准确度。

语音模型，简单的说就是将语音转成拼音。先不考虑外国人如何打110或者120，先说中国人。偶国是一个多民族、多语言、多文种的国家，有56个民族，共有80种以上语言，30种文字。而当前各家ASR服务商采用的模式是需要预先告诉系统，说话人是什么方言，然后服务器调用对应的引擎进行识别，无法对所有语音，并且可能夹杂各种口音的语言进行准确识别。

语言模型，简单的说就是看拼音写汉字。这个很多人感觉很简单，但是你要支持就算语音模型将各个方言可以准确无误进行识别，但是依旧无法满足所有语言的语序问题，就好比山东话虽然易懂，但是山东人喜欢说倒装句，在同样语音下容易造成填字错误。

还有一个最重要的就是说话人的情绪，完全被丢失。由于ASR输出为文本，也就是语言中很重要的语气全部被信息丢弃了。

NLU环节造成信息遗漏

自然语言处理部分，由于ASR的准确率不高，因此导致NLU经常性识别错误。同时由于机器目前即使使用深度学习技术，但是依旧无法保持人格。

ASR识别率不高，导致误识别。有时候只差一个字，意思就是完全不一样的，例如“偶住在锦荣花园”和“偶住在锦隆花园”。

ASR情绪丢失，导致误识别。情绪在沟通中可以提供很多信息，例如，小声说话，也许周围很危险，带着哭腔，说明情况很严重等等。

无法真正了解，导致误识别。目前自然语言处理均是建立在概率上，也就是机器根本不知道你说这句话的真实含义具体代表着什么内涵，只是像做任务一样，看到AAA就输出BBB，至于为什么，机器只觉得大概率BBB是最好的回答。

上下文信息丢失，导致误识别。目前在自然语言处理中，很难将庞大的上下文信息以有效的信息格式进行传输，以正向响应下一次的解析，并且知识图谱的不完善也有可能导致理解偏差。

总结

语音交互作为一种人机交互方式变得越来越普及，但是毕竟目前的运作方式是商业驱动的。就好比对方言的处理，普通话的测试语料最容易获取，训练的模型使用人数最多，对企业创造更多的商业价值。目前很难有企业为了一个几万人使用的方言去单独训练一个模型，投入产出太差，而无法完全覆盖的解决方案，是不会作为一种社会服务，并且生死攸关的服务，去贸然使用的。