基于声纹识别技术的安卓手机身份认证系统设计外文翻译资料

 2022-09-01 17:51:41

英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料


摘要—本文中,听觉启发调制光谱特征被用于改善在房间中存在混响时扬声器自动识别(ASI)的性能。调制频谱信号表示首先用23通道伽马通滤波器滤波该语音信号获得。然后一个八信道的调制滤波器组被加到每个伽马通滤波器输出的时间包络.特点是从范围从3到15赫兹的调制频段提取的和被证明训练和测试条件之间的失配是可靠的,并增加混响水平。为了证明所提出的特征获得的成果,实验用纯净语音,人工生成的混响语音,和在一间会议室记录的混响语音进行。仿真结果表明,基于高斯混合模型ASI系统,用所提出的功能训练,始终优于用Mel频率倒谱系数的基准系统训练。对于多麦克风ASI的应用,三种多声道比例组合,自适应信道选择技术调查,并显示,进一步提高ASI性能。

关键词:高斯混合模型(GMM),调制频谱,混响,混响时间,说话人识别。

  1. 引言

如今,大多数现有的自动说话人识别(ASI)系统的使用Mel频率倒谱系数(MFCCs)听觉激励功能和高斯混合模型(GMMS)或支持向量机进行分类。然而与新兴的免提通信的技术,这种系统的性能大表现出幅度地衰减,这主要是由于室内声学效果[1]和训练和测试条件之间的不失配[2]。为了改善远场ASI性能,两种模式已经被探索出来了。第一种使用补偿方案来抑制来自测试语音信号中不必要的环境的影响(例如,混响),以更好地匹配纯净语音用于训练说话人模型的特点。被视为一个双重的补偿方法的第二种方法,人为地扭曲训练语音数据以更好地匹配扭曲的测试语音信号的预期特征。

补偿技术要么在功能或信号电平要么同时在信号和功能水平中进行操作。在功能层面操作的方法尝试通过修改提取的特征,以减少对环境的影响。最常见的技术包括倒频谱平均减法(CMS)倒频谱平均减法和方差归一化(CMS)和相对光谱(RASTA)滤波[3]。反过来,在特征抽取之前在信号电平的补偿涉及执行语音增强[4],[5]。随着远场ASI,室内混响充当占主要作用的衰减因素和由混响抑制组成的语音增强。但是去混响是一个困难的而且往往病态的问题,尤其是当只有单个麦克风是可用的。此外,去混响可能引入可能是ASI性能的伪像。以减轻引入伪影的影响,已经使用组合的特征信号处理。在[6]中,麦克风阵列波束形成器被用于混响抑制和CMS用于减少引入的伪像。

2008年11月26日收稿;2009年5月07日修订。2009年5月26日首次发表;2009年10月16日当前版本已发布。协调这个手稿的审查和批准它公布的副主编是蒂莫西J.哈森博士。T. H.福尔克是在加拿大K7L3N6金斯顿皇后大学的电气和计算机工程系。他现在是与在加拿大M4G1R8的多伦多的多伦多大学生物材料研究所和生物医学工程的Bloorview儿童康复合作(电子邮件:tiago.falk@ieee.org)。W.-Y.陈是在 加拿大K7L3N6金斯顿皇后大学电子与计算机工程系(电子邮件:geoffrey.chan@queensu.ca)。在http://ieeexplore.ieee.org可在线获得一种或多种本文中的数字的颜色版本。

同样地,在中所描述的工作使用混响抑制与特征翘曲和CMS的组合改善远场ASI性能。或者,在[8] - [11]中所描述的工作提出了人为扭曲训练语音以仿真该预计是在测试过程中存在的失真。通常情况下,每个说话者训练多个模型,每一个由不同的房间声学特性失真的训练数据获得的。在[8]中,说话者模型为五个不同的房间的脉冲响应得到的。在测试过程中,一个室内脉冲响应的分类来确定要使用的说话者模型。同样,在[9]中每发言者用六种模型来表示非混响和混响语音的五个级别(从低到高)。为了测试,一个“混响感应系统”被用来决定使发言者用哪种模式。在[10],[11]中,假定一些关于在其中的测试信号将被记录的房间的先验信息是已知的;代表性的参数包括房间近似大小和扬声器/麦克风位置.获得这些信息可以让训练语音与接近真正的测试环境中人工生成的房间脉冲响应失真。

在本文中,对待环境强大的说话人识别呈现另一种方式。特别是,通过[12]激励,听觉激发调制光谱特征是基于在[13]所描述的工作的延伸提出。特征被证明是坚固的训练和测试混响条件的失配和增加混响水平的。不匹配的情况由于例外,加性噪声或者传输信道不在本文探讨并留待进一步研究。所提出的特征的有效性用三个使用在一间会议室记录具有模拟或测量的室内脉冲响应和混响语音生成的混响语音的ASI实验证实。比较是用MFCC-GMM基线系统实施的,用不同的补偿方法(例如,CMSV,语音增强,以及两者的组合)操作的。实验结果表明,基于所提出的功能GMM ASI系统始终优于基准。此外,三通道选择/组合技术探索多麦克风应用;实验结果表明,可以得到在远场ASI性能进一步改进。

本文的其余部分安排如下。第二节描述室内混响的模型以及人为地产生混响语音的方法介绍。第三部分提出所提出的调制光谱特征和第四节的建议和基线ASI系统。第五节报告实验结果和第六节介绍了三通道选择和组合技术。最后,第七节提出结论。

  1. 室内混响

在本节中,对室内混响的模型和产生混响语音的方法进行了讨论。

  1. 室内混响的模型

从扬声器到麦克风的混响室语音传播通常建模为线性滤波处理。混响信号建模为源(清洁)语音信号的与房间的脉冲响应的卷积

已知的是该扩散声场的假设下,平方室内脉冲响应的统计平均值随时间呈指数衰减[14]

尖括号lt;.gt; 表示总体平均,是增益术语,并且是由给定的阻尼因子

其中,是采样频率,并且是所谓的混响时间,参数最广泛使用于表征室内声学。根据定义,混响时间为在声源已经关闭后衰减60dB声音能量所需要的时间[15]。通常,施罗德积分是用来计算来自房间的脉冲响应[16]。

图1.波形从上到下依次为:清洁,混响语音与0.2,0.5和1秒。

B.模拟混响语音

在我们的实验中,两个工具被用来人工产生混响语音:SIREAC(实际声学仿真)[17]和G.191建议[18]中描述的ITU-T的软件包。SIREAC的工具包括有人工产生的(办公室)房间脉冲响应的源语音信号。用户可以自由地变化,从而模拟不同的大小和尺寸的办公室环境。如图1所示的波形图例证和1s的混响信号由SYRIAC仿真工具产生.在我们的实验中,混响语音信号电平使用ITU-T P.56电压表标准化为-26 dBmV(分贝过载)[19]。反过来,在ITU-T G.191工具用于从有干净语音信号的办公室环境测量的卷积室内脉冲响应。在我们的实验中使用的测得的房间脉冲响应在[20]中描述并用一个六声道麦克风阵列收集并对应于。麦克风是全向的并在一个线性阵列中以5厘米隔开。扬声器被放置在一个在94厘米的距离相对于所述阵列的中心90°角。

三、听觉INSPIRED调制光谱特征

在本节中,描述提出光谱特征的调制的简要说明(读者可参考[21]为一个更详细的描述),并呈现在在远场的说话人识别在使用的动机。

A.特征提取

所提出的调制光谱特征使用图2所示的信号处理步骤计算。首先,语音信号S(n)是由23临界频带伽马通滤波器组滤波,以模拟由耳蜗[22]执行的处理。滤波器的中心频率范围从125赫兹到近一半的采样率(例如,3567赫兹到8 kHz采样率)。滤波器带宽是由等效矩形带宽(ERB)[23]表征。再ERB的过滤器,由下式给出

其中,表示用于滤波器的中心频率和并分别设置为9.265和24.7常量。 图3示出在我们的实验中使用的23通道伽马通滤波器组的频率响应。

图2.涉及的调制光谱特征的计算的信号处理步骤的框图。

图3. 23通道伽马滤波器滤波响应。

第j个伽马通滤波器的输出信号由下式给出

其中是滤波器的脉冲响应。的时间包络使用希尔伯特变换计算得出。时间包络被计算为复数解析信号的幅度。因此,

时间包络然后乘以一个具有32毫秒频变的256毫秒汉明窗;对帧m的窗口包络被表示为,其中时间变量n为了简便被丢弃了。用256毫秒持续时间的帧获得低频调制频率适当的分辨率。

表I 调制滤波器的中心频率和用赫兹表示的带宽

临界频带j中的调制频谱是通过取离散傅立叶变换的时间包络获取的

其中f表示调制频率。调制频率箱为了模拟听觉启发调制滤波器组[24]分为八阶。在表I中描述的是在我们的实验中使用的八个调制滤波器的中心频率和带宽;丢弃低于3赫兹频率的原因是在第三节-B讨论。此后,符号和将被用来表示第j个由第k个调制滤波器分组临界频带的信号的每帧和平均值(所有帧)调制的能量。此外,该符号和将分别被用来表示用于调制信道k处的每一帧和平均23维能量向量。

B.环境强大的ASI特征选择

以前的研究已经显示出干净混响语音的时间包络包含主频率(被称为调制频率)范围从2-16赫兹[25],[26]与在约4赫兹的频谱峰值,对应于音节讲话语音[27]的速率。随着混响语音,房间脉冲响应的混响尾部通常建模为指数衰减高斯白噪声过程[28]。因此,它预期混响信号达到更类似增加属性的高斯白噪声。自时间包络算法(6)可以包含频率高达其原始信号的带宽[29],混响信号被认为含有超出2-16赫兹范围的干净语音的显著调制频率分量。

图4.对调制频带k=1,...,8的声波频率的曲线图(分别为(a)-(h)),为(点划线)和(虚线)的纯净语音(固体)和混响语音。

在图4(a)-4(H)的曲线分别有助于说明当的k =1,...,8时影响。在图中,调制能量值由调制带k=1获得的最大调制能量归一化,对应于讲话语音的音节速率。从图中可以看出,被证明是调制频带K =1-3稳定增加的,对应于调制频率的范围从3-15赫兹。此外,如预期的那样,图(d)–(h)显示,在较高的调制频带(K =4-8)的调制能量随增加的增加;这样的频带对应于调制频率高于16Hz的频带。因此,为了设计出这样一种环境稳定的ASI系统,我们建议使用,K =1-3,作为特征。如将在第VI节中所示,从更高的调制频带(K =4-8)的信息可以用来协助在多分道组合。

此外,如从表I可见,3 Hz以下的调制频率不考虑。丢弃这种频率的原因是双重的。首先,混响引起时间拖尾效应,因为突发语音之间的空隙充满了相邻音素[26]回响能量。我们的先导的实验表明,时间拖尾效应导致在低的调制频率范围从直流到大约3.2赫兹的调制能量的增加。第二,在远场应用中,语音通常被记录在(准)存在于嘈杂的环境中的平稳噪声源(见V-D部分)。我们的实验表明,一般的办公和会议室噪声源(例如,风扇或空调噪声)主导低于3赫兹的调制频率。因此,通过丢弃3 Hz以下的调制频率,远场ASI可以获得增加的稳健性。所提出的基于GMM-ASI体系在第IV-B中进行更详细的描述。

四、ASI系统说明

在本节中,对基线和提出的系统进行了描述。

  1. 基线系统

广泛使用的基于GMM的说话者识别系统被用作基线[30]。一个GMM由加权和的M组成密度

其中是该混合物的重量,以及和,并且是具有平均向量和协方差矩阵的高斯密度。参数列表,,定义了一个特定的GMM,它是从使用期望最大化(EM)算法[31]的训练数据获得。

作为基线,探索一个类似于用在[7],[32]的基于常规的梅尔频率倒谱系数(MFCC)的系统。特征向量由附加12次MFCCs的12阶增量 MFCCs组成。在预试验,可以观察到双增量系数的加入减少更高的识别精度。MFCCs是从26通道梅尔刻度滤波器组得出(对数能量)并保持零阶系数以形成一个25维的特征矢量。系数从具有10毫秒频变的25毫秒帧计算得出,只有信息活性语音帧被保留。对每发言者的配有32和64对角分量GMM进行了研究。干净语音被用来训练基线说话者模型;不同的模型为对不同的功能级别的补偿策略(例如,CMS或CMS)获得。

ASI是基于为N个活动的语音帧计算的平均对数似然值()

其中x表示25维MFCC特征矢量和表示说话人s得到的GMM参数。给定的一组说话人,使用以下数似然测试获得所识别的说话人

B.建议制度

对于所提出的ASI系统中,每个说话人为前三调制频带(k=1-3)训练一个GMM。在我们的实验中,每个模型包括32对角的高斯分量。除非另有说明,干净语音被用于系统的培训和补偿不会用于证明所提出的系统的稳健性训练和测试条件之间的失配。识别基于为在活跃的语音帧上的调制频率带k计算的平均对数似然值

其中表示广义矩带k和表示说话人s每频带的GMM参数。对于所提出的系统,下面的对数似然测试用于

五、实验结果

在本节中,所提出的和基线系统的性能被报告为涉及模拟和测量室的脉冲响应以及记录混响语音生成混响语音的实验。

  1. 性能图

在分段跟随,(百分比)识别精度(ACC)是用来量化系统的性能。此外,使用了两个措施来量化在基线上所提出的系统的性能上的改善;即,增长百分比(INC)和百分比误差率降低(ERR)。这些措施是由以下式子给定的

其中,X和Y分别表示由基线和所提出的系统获得的识别精度。

图5.识别精度对M=32所提出的方法(固体)的,并用M=32(点划线)和M=64(虚线)的CMSV补偿的基线。

B.实验1:模拟房间脉冲响应

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[147707],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。