嘈杂不利环境中伦巴第效应的语音识别无监督均衡外文翻译资料

 2022-08-08 12:05:31

英语原文共 15 页,剩余内容已隐藏,支付完成后下载完整资料


嘈杂不利环境中伦巴第效应的语音识别无监督均衡

IEEE成员Hynek Boril和IEEE研究员John H.L.Hansen

摘要——在存在环境噪声的情况下,演讲者倾向于调整其语音输出,以保持符合需要的交流。已知由噪声引起的语音调整(称为Lombard效应)会严重影响自动语音识别(ASR)系统的准确性。性能降低是由于通常在噪声清洁的中性(模态)语音上训练的ASR声学模型与嘈杂的LE语音的实际参数之间的不匹配造成的。在这项研究中,提出了新的无监督的频域和倒谱域均衡,这些均衡提高了LE对ASR的抵抗力,并将其纳入采用噪声声学模型密码本的识别方案中。在频域中,短时语音频谱以最大似然方式转换为中性ASR声学模型。同时,根据分位数估计来确定倒谱样本的动力学并将其归一化到恒定范围。应用码本解码策略来确定与语音和背景噪声的实际混合最匹配的噪声模型。拟议的算法和常规补偿方案并排进行评估,该补偿方案针对存在各种背景汽车噪声水平的所连接的捷克数字。结果表明,该系统在10dB信噪比下,女性中性语音和LE语音的绝对字错误率分别降低了8.7%和37.7%,男性中性语音和LE语音的绝对字错误率分别降低了8.7%和32.8%,与采用感知线性预测(PLP)系数和倒谱均值和方差归一化的基线识别器相比。

关键词——倒谱补偿,噪声模型码本,频率扭曲,伦巴第效应,语音识别。

1.介绍

LOMBARD EFFECT(LE),以法国耳鼻喉科医生Etienne Lombard的名字命名,他首先研究了环境噪声对语音产生的影响[2],众所周知,环境噪声会影响许多语音产生参数,如声带的发声力、音调、形状和频谱斜率、共振峰位置和带宽、频谱重心,有声/无声电话和其他电话的能量比[3]–[7]。大量关于噪声中语音通信的研究证实,说话者会调整他们的语音输出[8],[9],并且报告说,当说话者只是简单地重复提示/自发地说话或与他人交流时,调整的速率是不同的[10];然而,目前尚未清楚调整在多大程度上代表了一种自动反射[11]以及它们在多大程度上是有意识的[12]。

NumIn自动语音识别(ASR)的任务在噪声恶劣的环境中,噪声和LE对ASR的性能有很大的影响[13]。即使声学语音信号中的噪声被抑制,由于LE语音的参数与在噪声干净的中性(模态)语音上训练的ASR声学模型之间的不匹配,LE也会导致严重的ASR退化[14],[15]。为了更好地理解不匹配的原因,以下段落总结了LE下直接影响ASR中使用的语音编码的已知语音生成变化。随后,概述了过去的努力,在接近LE抗ASR提出。

在噪音中,说话者会调整自己的声音强度[2]。对于大范围的噪声级,语音声压级(SPL)和噪声声压级(SPL)之间的相关性几乎是线性的,在阅读文本[8]或与他人交流[9]时斜率不同。语音努力的增加在电话中是不均匀的,元音通常比辅音更强调[3],[4]。发声力的调整伴随着音调的增加[2],因为音调随着声门下压力和喉肌肉组织张力的增加而升高[16]。当分别用半音和声压级表示时,音调几乎与声音强度成线性变化[17]。

LE引入了时域声门波形剖面的显著变化[18]。在谱域中,LE波形的能量迁移到更高的频率,导致谱重心向上移动[4],[7],并使短时语音谱的谱斜率变平[3],[19],[20]。第一共振峰中心频率F1与舌头的垂直位置成反比,第二共振峰频率F2随着舌头的向前移动而增加[21]。在LE中,增加的发声努力伴随着更宽的张口,这是通过降低下巴和舌头来实现的。因此,F1的频率会上移[16],[22],这种趋势与手机上下文无关[6],[23]。F2在一些手机中上升[6],而在其他手机中下降[4],[24]。在[19]中,F1的增加伴随着F2的持续减少,而在[3]和[25]中,对于大多数手机,F1和2的位置频率都会上移。对于大多数手机来说,前四个共振峰的平均带宽在LE中减小[3]、[4]、[6]、[25]。

在乐[8]中,音节持续时间倾向于延长。元音的持续时间通常较长,而辅音的持续时间根据上下文而增加或减少。辅音的持续时间缩短率通常小于元音的持续时间延长率,导致平均单词持续时间增加[10],[23]。字长的变化可能是显著的[3]、[5]、[6]或不显著的[24],这取决于条件。

大多数最近的ASR引擎采用基于倒谱的语音信号编码,例如mel频率倒谱系数(mfcc)[26]或感知线性预测(PLP)倒谱系数[27]。LE中的语音变异直接影响短时语音片段的倒谱。发声力的变化显示在语音信号的能量和第0倒谱系数c0中。声门波形的频谱斜率影响第一和第二倒谱系数c1,c2[28]。更高的倒谱系数反映共振峰配置(中心频率和带宽),其次是由基音控制的捕获光谱包络精细结构的系数[29]。元音和辅音能量的不均匀增加会改变长期c0分布的轮廓,所有倒谱系数的分布都会受到元音和辅音持续时间变化的影响。

与众多的噪声抑制和语音增强研究相比,LE对ASR的影响和抑制研究相对较少。提高ASR对LE的抵抗力可分为特征提取、LE均衡、声学模型调整和自适应以及训练方法。在特征提取/LE均衡领域,语音编码采用LE优化滤波器组[14],[15],基于最小方差无失真响应(MVDR)的频谱建模[30],利用语音特征向量的高阶时间导数[28],[31],噪声谱减法和语音增强[32],倒谱平均减法和频谱倾斜补偿[14]、固定共振峰偏移[3]、[33]、声道长度归一化[34]、全词倒谱补偿和基于源发生器的倒谱补偿[5]已被提出并被证明是有效的。

在声学模型调整和自适应领域,已经提出了交替持续时间模型[35]、N信道隐马尔可夫模型(HMMs)[36]和由谈话风格分类器指导的谈话风格专用模型的码本[37]、[38],以及中性声学模型对说话人相关和独立LE的适应性[6]。

在训练方法领域,在包括LE(multi-style training)[28]在内的多种说话风格的语音样本上训练说话人相关的声学模型已经被发现是部分有效的。不幸的是,在与说话人无关的多风格训练中应用相似概念会导致低性能[39]。如果存在一致的LE/重音语音风格,可以通过训练扰动重音风格专用声学模型来提高ASR的性能[40]。

虽然这些算法在抑制LE方面取得了不同程度的成功,但是在LE中产生的ASR性能仍然低于neutral。过去的大多数研究假设有足够数量的标记LE数据可用于预先估计固定的信号均衡/模型自适应参数,并且LE的水平(由环境噪声引入的语音产生变化的比率)不会随时间而改变。在现实世界中,环境噪声的水平可能会有所不同,从而导致不同程度的LE[41]。此外,LE强烈依赖于说话人[4],[20],并且随着实际的通信场景而变化(例如,随着参与通信的对象的数量[9])。因此,假设可用的标记样品与任何可能的试验条件相匹配可能是不现实的。

这项研究提出了新的频率和倒谱域变换,使LE语音样本向ASR模型中捕获的中性语音分布均衡。与以往的许多LE抑制方法相比,变换参数是从输入语音信号中动态估计的,既不需要先验的LE水平知识,也不需要匹配实际情况的标记训练/自适应LE样本。

在频域中,短时间谱通过先前发展的最大似然声道长度标准化(VTLN)的变化进行标准化[42]。VTLN中用于补偿说话人之间声道差异的标量频率扭曲被频率变换所取代,以更好地解决LE引入的共振峰偏移。在倒谱域中,倒谱系数的动力学通过对每个倒谱维的两个分位数估计被归一化到一个常数范围。最近,已经开发了规范化倒谱直方图精细轮廓的先进技术,利用与测试条件相匹配的相当广泛的自适应数据集[43],或者基于分位数的在线规范化,应用双遍搜索和连续性标准[44]。与这些复杂的方法相比,这里提出的倒谱补偿的目标是专门解决由背景噪声、信道和LE引入的倒谱样本中的动态范围失配,扩展了倒谱均值(CMN)[45]和方差(CVN)[46]的流行且计算上廉价的标准化的概念,最近引入了倒谱增益归一化(CGN)[47]。新的频率和倒谱归一化被纳入一个识别方案中,该方案采用了一个声学模型的码本,该码本是在不同信噪比(SNRs)下与汽车噪声混合的干净数据上训练的(噪声模型)。基于码本的识别过程选择与实际语音和噪声背景最匹配的模型,并将其用于语音解码。

本文的其余部分组织如下。第二节介绍了频域变换,以补偿共振峰位移在乐。第三节讨论了不利环境中倒谱分布的可变性,特别着重于加性环境噪声的影响,并提出了一种利用均值和方差归一化忽略分布特性的倒谱补偿技术。第四节描述了一种基于码本的噪声语音解码策略。在第五节中,我们对所提出的算法进行了评估,并将其与传统的标准化方法进行了比较,这些标准化方法是在不同背景噪声水平下的中性和LE语音样本组成的数据库上进行的。第六节是讨论和结论。

2.WARPamp;SHIFT 频率转换

共振峰位置与声道长度(VTL)近似成反比[48]。声道长度归一化(VTLN)是一种常用的无监督方法,用于补偿由于说话人间VTL差异引起的共振峰偏移。VTLN[42]通过标量因子执行频率轴的扭曲

(1)

标量翘曲的概念在图1的左半部分中展示,其中x轴上显示的原始共振峰频率Fx由通过坐标原点的线性函数映射到归一化频率FyN。在理想情况下,相同电话的共振峰被映射到相同的FyN,独立于实际的VTL。实际上,瞬时VTL和共振峰配置都随不同语音的清晰度而变化[48]。从F3开始的高共振峰往往分布更均匀,反映了实际的VTL,而前两个共振峰F1,2更敏感的横截面积和体积的后前腔不同的发音,以产生不同的电话,而不太敏感的VTL变化[21],[49]。

在VTLN中,有两种主要的搜索最优的方法,共振峰驱动(FD)和最大似然(ML)搜索。这两种方法都是从长期的语音片段(如话语)中估计扭曲因子。FD search通过在坐标原点[48],[49]处开始的直线内插通常较高共振峰的平均或中值位置来估计。在ML-VTLN[42]中,在给定转录W和ASR隐马尔可夫模型(HMM)的情况下,搜索以最大化话语强制对齐的可能性:

(2)

其中是从话语中提取的声学观察序列,并被扭曲。在语音识别过程中,首先对未经编码的数据进行解码,然后根据(2)中的扭曲选择来估计未知的W。第五节讨论了VTLN程序的细节。与共振峰驱动方法相比,ML-VTLN考虑了ASR模型中捕获的实际特征,不需要可靠的共振峰跟踪(对于噪声语音信号不可用),并且在减少ASR错误方面更有效[50]。

正如在引言中所讨论的,LE在共振峰结构中引入了相当大的变化。F1始终迁移到更高的频率,F2根据语音内容向任一方向移动。更高的共振峰也会受到LE和频率上下移动的影响,但它们的变化并不显著[4]、[25]、[33]。采用(1)的ML-VTLN可以通过向中性模型扭曲整个谱包络来部分补偿由于LE引起的低共振峰位移,但是通过坐标原点的线性映射函数不能同时处理低共振峰位移和高共振峰位移的不同比率,特别是当低共振峰的比率较高时。在过去的二十年中,已经提出了许多可选的VTLN变换,如分段线性、二次和双线性频率映射[51]。这些转换在一定程度上允许模拟低共振峰和高共振峰的不同转换率。这些变换通常是单参数函数,与可逆性(即0 Hz和奈奎斯特频率的同一映射)的要求相联系,显示了低共振峰映射和高共振峰映射质量之间的折衷。此外,这些变换都不能有效地解决低共振峰与高共振峰在相反方向上从中立位置的偏移,如图[33]中的LE所示。本文提出了一种广义线性频率映射函数

(3)

式中,表示翘曲,如VTLN中所示,表示偏移因子。如图1右侧的点虚线所示,扩展自由度可以更精确地映射不同位移比的频率,以及低共振峰和高共振峰的不同位移方向。注意,如果F1和F2向相反方向移动,则(3)中的映射的精度可能会降低;然而,可以说变换比(1)更精确。方程(3)将(1)的自由度扩展为两个;因此,参数搜索网格变得二维并且在计算上更具挑战性。但是,如第五节所示,在几乎没有性能代价的情况下,计算工作量可以大大减少[参见第V-D节(30)中介绍的移位变换]。ML频率标准化(3)将被称为Warpamp;Shift,缩写为Wamp;S。在第五节中,详细介绍了Warpamp;Shift的实现以及性能评估。

3. 基于分位数的倒谱动力学归一化

由传输信道的可变性引入的卷积失真以及加性噪声的存在直接影响从语音中提取的倒谱系数,并且可能导致处理后的语音信号的倒谱分布与在ASR声学模型中捕获的倒谱分布之间的严重失配。信道冲激响应在频域中通过对语音频谱加权的窗口来表示,在倒谱域中通过倒谱系数分布均值的加性分量来表示。如果信道特性与语音相比变化缓慢,则可以通过倒谱平均减法(CMN)有效地抑制它们[45]。CMN从长时间窗口估计倒谱均值,并从窗口中的每个倒谱样本中减去它们

(4)

其中n是倒谱维数,L是窗长,i是倒谱样本的索引。加性噪声也有助于倒谱均值漂移,而且影响倒谱分布的方差[52]。后一种影响可以通过应用倒谱方差归一化(CVN)[46]来减少,它估计每个倒谱维数在一个长时间窗口中的方差,并将其归一化为一

(5)

最近提出的倒谱增益归一化(CGN)在抑制加性噪声的影响方面已被证明优于CVN[47]。代替方差,CGN从最大和最小样本值Cnmax和Cnmin估计每个维度的所谓倒谱增益,并将其标准化为统一

. (6)

正如在引言中已经指出的,LE中的语音产生变化直接影响倒谱分布。参数的偏差,如发声努力、频谱斜率或共振峰位置,会导致相应倒谱系数均值的偏移,而LE引起的变化的时

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[257888],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。