英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于语音增强参数调整实现最大化自动语音识别的精度
摘要——装有麦克风阵列的消费电子产品,如汽车导航设备和耳机,通常采用梯度法来实现语音增强技术以应对加性噪声。然而,虽然这些技术最初是为语音通信而开发的,能够最大限度地提高信噪比(SDR),但它们并不总是能够最大限度地提高自动语音识别(ASR)的准确性。为此,人类专家根据不同的环境和声学模型来调整前端语音增强参数。在这项研究中,我们开发了一个新的系统,通过自动调整前端语音增强来最大限度地提高给定ASR引擎的准确性。本文提出的方法允许用户在环境噪声变化时,通过消费电子设备以较小的压力使用ASR,并利用遗传算法(GA)生成特定环境下前端语音增强的参数值。环境生成的值可以通过基于噪声特征对环境进行初步聚类。在评估中,由我们的方法确定的参数值优于由人类专家调整的参数值。
索引项——词阵列信号处理,语音增强,自动语音识别,遗传算法,语音接口。
I.介绍
自动语音识别(ASR)在许多新兴的消费者应用中使用,这些应用程序依赖语音接口,例如语音控制的汽车导航设备[1]、[2]、[3],用来帮助双手健全的用户。演讲增强包括降噪等是这类应用的关键。波束形成器[4],特别是最小方差无失真响应(MVDR)波束形成器[5],[6],已与麦克风阵列一起使用进行降低噪声的研究和实践。此外,由波束形成器和后滤波器组成的多通道维纳滤波器(MWF)[7]通常在消费设备中实现,因为它在非常嘈杂的环境中表现良好,并且不需要昂贵的计算机硬件[8],[9]。然而,这些基于梯度法的降噪技术虽然能使信噪比(SDR)最大化,但并不总是能使精度最大化。为了解决这一问题,本文设计了一种用于语音合成系统的前端语音增强系统。本文提出的方法已经应用于消费类设备(图1)。它还可以应用于智能手机,例如语音搜索、个人安全服务和实时翻译[13]、[14],通过智能扬声器[13]、[15]和通信机器人[16]实现语音控制的家用电器。通过提高ASR性能,它能让用户毫无压力的使用这些应用程序。
图1 安装麦克风阵列的消费设备。
随着ASR技术应用的日益广泛,其对环境变化的抵抗能力也越来越强。基于深度神经网络(DNNs)的声学建模已经实现了最先进的性能[17]。声学模型通常以数据驱动的方式进行训练,因此训练条件和测试条件之间的不匹配会严重影响声学模型的性能。DNN自适应[18]、[19]和数据增强[20]是鲁棒ASR的常用策略。特征空间噪声自适应训练可以抑制前端语音的不匹配增强[21]。然而,在大多数环境中保持良好性能的同时,很难适应异常罕见的环境(例如,在高速行驶的汽车内或建筑工地附近)。应用前端语音增强并根据这些环境和模型中的每一种进行调整更为现实。本研究中提出的方法准备了专门用于稀有环境或一般环境的前端语音增强参数,并在它们之间进行切换。我们的方法适用于给定声学模型的前端语音增强,在很少的环境下提高了性能,而在大多数环境下不影响性能。
实际应用中使用的前端语音增强包括降噪、语音活动检测(VAD)[22]和效果单元[23]。VAD的强大是因为语音增强的输出应该在噪声间隔内是无失真的,但在语音间隔内包含无失真的语音。特效单元的典型例子是压缩器/扩展器和均衡器,它们将声音的电平和频率特性标准化,以减轻麦克风、到微型电话的距离和声音响度的差异所造成的不匹配。一些商用的ASR系统配备了特效单元[24],前端语音增强需要适应不同的环境,以便将各种信号与用于开发ASR系统的训练数据相匹配。复杂的设计提高了前端语音增强的性能;事实上,需要根据环境调整几十到几百个参数。此外,对各种环境进行建模和观察或估计指定这些环境的所有物理量是困难的,因此一组参数(即参数集)的值通常由人类专家根据经验确定。为了提高ASR服务的实用性,需要自动获取参数集的适当值。
一些参数可以通过引入自适应处理来确定[25];然而,据我们所知,目前没有处理所有变量的自适应处理。除此之外,MWF的一部分可以用高斯混合模型[26]或神经网络[27]来建模,一些参数可以通过训练模型来确定。此外,还提出了通过强化学习优化基于DNN的语音增强的方法[28],[29]。然而,当观测信号与训练数据有显著差异时,这些新出现的方法表现出不可预测性。因此,一种确定的技术,如具有适当参数设置的常规MWF,尤其是对于稳定性和低计算量优先的消费电子产品更为可取。
一些研究调整了前端语音增强参数。对于单通道处理,提出了一种迭代谱减法的方法[30],该方法具有不同的基频系数,并验证了其对降低音乐噪声的效果[31]。还提出了一种优化加权系数以结合VAD特征的方法[32]。然而,这些方法不能应用于多参数的前端语音增强。
在以前的多参数调节前端语音增强的研究中,我们提出了一种根据准备好的候选语音的音调环境自动选择最佳参数集值的方法[33],并将该方法应用到麦克风阵列设备中。然而,按照传统的经验方法,为各种噪声环境准备数百个元素的参数集的候选值需要人类专家的大量努力。为了使用最初为语音通信开发的麦克风阵列设备作为语音接口,需要对参数集进行机械调整,得到的参数集值应优于人工调整的参数集值,专家们确定参数设定值的过程可以被视为优化,以最大限度地提高ASR的准确性。本文基于会议论文[34],采用启发式搜索方法,因为ASR精度不能用数学公式表示为参数的函数套入,特别是,遗传算法(GA)可以用来搜索性能相对较好的参数集值。遗传算法已被应用于许多领域,尤其是消费类设备中,无法用数学公式表示待优化变量的问题[35],[36]。此外,本文还通过仿真评估了在六种不同环境下用本文方法确定的参数设定值在ASR精度方面的性能。
本文的其余部分组成为如下。第二节概述了开发的系统,描述了前端语音增强及参数集合部分。第三节解释了我们搜索参数集值的方法。第四节详细介绍了仿真对性能的评价。第五节为本文的结论。
II.系统配置
A.综述
我们的目标是通过对麦克风捕获的信号进行前端语音增强,为消费者提供高性能的ASR。为用户提供ASR服务的客户端应用程序可以在各种噪声条件下使用,因此根据噪声条件调整参数集可以提高ASR的精度。所开发系统的配置如图2所示。参数集搜寻和ASR在服务器计算机上运行。第四节讨论了它们的计算复杂性。当应用了语音增强的用户设备被实现时,必须设置参数集,而且,如果ASR显示出较低的精确度,则可以再次搜索并更新它们的值以提高服务质量。语音增强已经在设备[9]-[12]中实现。一旦找到最佳参数集值,就可以通过新添加的接口将其发送到设备。参数集选择与前端语音增强和操作结合在一起,当前与本地设备上的语音增强结合在一起,通过安装麦克风阵列的各种设备,为消费者提供使用ASR引擎的机会。语音增强和参数集的总计算复杂度值选择最多为150mips,因此它们可以在消费设备的计算能力所支持的情况下运行。
参数集在(1)中用表示,其中i是区分不同值的指标,表示参数集的一个元素,Nele是这些元素的个数。
= xi;i,1, xi;i,2,..., xi;i,Nele (1)
假设噪声条件被分组,我们的系统将参数设置值初步调整为如下:步骤1,生成候选参数集值。步骤2, 将数据集分为子集,并将参数集值赋给簇[33]。数据集由语音信号组成通过微型手机和正确的句子文本捕捉。然后,在客户机应用程序请求执行ASR时,通过测量噪声和目标之间的距离,自动选择候选参数中的最佳参数集值簇.第二节B部分和第二节C部分分别概述了前端语音增强和步骤2。第三节解释了第1步,这是本文的主要贡献。
图2 已开发系统的配置
B. 前端语音增强
我们的系统中用于语音增强的前端处理如图3所示。在各种条件下输出符合以下ASR的信号,必须调整图3所示的每个块中使用的参数。MWF是最基本的块,其配置如图4所示。
图3 前端语音增强流程 图4 MWF的配置
我们假设用户的声音从一个已知的方向到达麦克风阵列,Q-1相干干扰来自不同的方向。相干声源定义为(2),其第一个元素是用户的声音。
上标T表示转置,omega;和tau;分别表示频率和时间帧。麦克风阵列观测到的信号用(3)和(4)表示,其中hq(omega;)和w(omega;,tau;)分别是第q相干声源到麦克风阵列的传递函数和非相干背景噪声。
MVDR波束形成器GBF(omega;)用于产生(5)–(7)中的接收信号,其中(omega;,tau;)是波束形成器输出中的背景噪声。
上标H表示厄米转置。在MVDR波束形成器(10)的约束下,y(omega;,tau;)的第一个元素,即目标方向Y1(omega;,tau;)上的信号,被视为目标分量S1(omega;,tau;)和剩余噪声分量V(omega;,tau;)的和,如(8)和(9)所示。
相干声源(omega;,tau;)的功率谱密度(PSD)用(11)描述,而余波(omega;,tau;)的PSD用phi;V(omega;,tau;)表示。
为了降低残余噪声分量v(omega;,tau;),将维纳滤波器Gwinener(omega;,tau;)应用于Y1(omega;,tau;)、如(12)和(13)
波束形成器输出(omega;,tau;)中背景噪声的psd由(14)描述
声源PSD和波束形成器输出PSD之间的关系由线性方程[37]建模,如(15)中所示,其中D(omega;)是波束形成器的方向性增益,并使用波束形成器Gbf(omega;)和传递函数H(omega;)计算
背景噪声W(omega;,tau;)的PSD近似为(16),其中上标 表示伪逆。
通过使用(17),(15)大致变形为(18)。
(18),(13)中的S1(omega;,tau;)和V(omega;,tau;)可分别利用(19)和(20)进行估计,其中gamma;是加权系数。
使用最小统计量[38],[39]作为(21)估计背景噪声的PSD。
这里,tau;int是一个时间间隔,上标表示平滑的指数移动平均值。
参考文献
- S. Ahn and H. Ko, “Background noise reduction via dual-channel scheme for speech recognition in vehicular environment” IEEE Trans. Consum. Electron., vol. 51, no. 1, pp. 22–27, Feb. 2005, doi: 10.1109/TCE.2005.1405694.
- S. M. Kim and H. K. Kim, “Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment,” IEEE Trans. Consum. Electron., vol. 57, no. 2, pp. 866–872, May 2011, doi: 10.1109/TCE.2011.5955234.
- S. Kono, Y. Wakisaka, and A. Ikeno, “Prototype of conversation support system for activating group conversation in the vehicle,” in Proc. HCI Int., 2016, pp. 119–127.
- D. H. Johnson and D. E. Dudgeon, Array Signal Processing: Concepts and Techniques. Upper Saddle River, NJ, USA: Prentice-Hall, 1993.
- M. Wolfel and J. McDonough, “Minimum variance distortionless response spectral estimation,” IEEE Signal Process. Mag., vol. 22, no. 5, pp. 117–126, Sep. 2005, doi: 10.1109/MSP.2005.1511829.
- J. Barker, R. Marxer, E. Vincent, and S. Watanabe, “The third lsquo;CHiMErsquo; speech separation and recognition challenge: Dataset, task and baselines,” in Proc. Autom. Speech Recognit. Understand. (ASRU), Scottsdale, AZ, USA, 2015, pp. 504–511.
-
M. Brandstein and D. Ward, Eds., Microphone Arrays, Signal Processing lt;a id='_boo
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[257890],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。