具有有限数据的自动说话人识别外文翻译资料

 2022-08-21 23:31:26

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

具有有限数据的自动说话人识别

摘 要

自动说话人识别(ASR)是迈向语义多媒体理解的垫脚石技术,它使多功能下游应用受益。近年来,基于神经网络的ASR方法已经证明了在具有足够训练数据的情况下具有出色的识别性能。但是,为每个用户(尤其是对于新用户)收集足够的培训数据是不切实际的。因此,很大一部分用户通常只有非常有限数量的训练实例。最终,训练数据的缺少会阻止ASR系统准确地学习用户的声学生物特征,危害下游应用程序并最终损害用户体验。

在这项工作中,我们提出了一种基于对抗性的少拍学习型说话人识别框架(AFEASI),以仅使用有限数量的训练实例来开发强大的说话人识别模型。我们首先采用基于度量学习的少拍学习来学习说话者的声音表示,其中有限的实例被综合利用以提高识别性能。另外,对抗性学习通过对抗性示例被应用于进一步增强说话人识别的概括性和鲁棒性。在可公开获得的大规模数据集上进行的实验表明,AFEASI明显优于11种基线方法。深入分析进一步表明了该方法的有效性和鲁棒性。

CCS概念

bull;信息系统→语音/音频搜索。

关键词

说话人识别;少量学习;对抗训练

1引言

在过去几年中,语音已成为增长最快的媒体之一,人们通过其与设备进行交互。例如,2018年,美国有超过4700万人拥有智能家居设备,而23%的英国人在家中拥有可语音控制的数字助理[7,14]。为了激发智能设备与其所有者之间的互动,自动说话人识别(ASR)在基于短片段音频确定说话人身份方面扮演着重要角色。此外,ASR的功能伴随着广泛的应用,例如生物特征认证[23],取证[10]和电子产品中的个性化服务[13]。特别是,仅具有声音信息的与文本无关的ASR是最普遍且非试用的任务,可以在日常情况下使用。在与文本无关的ASR中,将给出训练集中一位已知说话者的任意说话,并且系统需要识别该说话属于哪个说话者。

由于强大的模型能力和卓越的性能,基于深度学习的ASR方法正变得越来越流行[4,9,17,35]。现有深度学习方法的大多数增量改进都依赖于使用具有大量训练数据的更深,更复杂的模型。更具体地说,现有方法有两个固有的局限性。首先,由于计算和存储成本较高,在实践中并不希望增加模型的复杂性。因此,将这样的方法部署在智能设备中以提供离线服务变得昂贵。其次,为所有说话者获取足够的带标签的训练数据是不切实际的[21],而缺少训练支持会导致现有的基于深度学习的ASR方法的泛化能力更差,更容易受到微扰的影响[3​​,38]。因此,开发具有有限训练数据的ASR有效技术仍然是一项艰巨的任务。

为了在有限的训练数据下实现出色的性能,元学习是全面利用有限的训练实例的最有前途的方法之一。更具体地说,元学习系统地观察了机器学习方法如何在各种相似的学习任务上执行,然后学习更有效地学习新任务[31]。特别是,当代的元学习方法中的少拍学习,它引入了辅助元学习阶段,以概括和共享跨任务的可转让知识。为了从极其有限的数据中学习,一种基于量度学习的少拍式学习将目光转向光参数模型,该模型在训练实例之间学习距离度量,而不是无数模型参数[33]。

更准确地说,可以通过推理支持模块和查询模块中的实例之间的距离度量来学习和记住基本知识。支持模块中的实例被标记为实例,从而用作参考。然后,基于参考实例,查询实例便能够进行推理。最后,可以通过迭代比较支持实例和查询实例来优化基于度量学习的几次学习模型,从而使来自同一说话者的实例尽可能彼此靠近地嵌入到隐藏空间中,并尽可能地远离实例中其他发言人。

为了全面利用训练实例,一种替代方法是基于训练集生成增强数据。与传统方法不同,传统方法是在训练过程之外单独扩充数据,我们利用对抗训练自动构建扩充数据。特别是,我们在嵌入级别构造动态扰动以形成对抗性示例。这些对抗性示例是通过对数据集的小但有意的扰动来形成的输入。具体来说,这些对抗性示例可以被视为最终的数据增强,因为会创建特定的扰动来最佳地欺骗模型。因此,以对抗方式训练的模型不仅可以从原始静态训练数据中学习,而且可以基于动态构造的扰动数据进行改进。实验结果,对抗训练显著提高了ASR模型的鲁棒性并实现了实例外的泛化,而鲁棒性对于安全敏感的ASR任务至关重要。简而言之,通过对抗性训练进行数据增强提供了另一种有效的解决方案,可以充分利用训练实例和训练模型来抵抗令人讨厌的干扰,从而在训练和测试中实现高度概括。本文研究了缺乏训练数据的说话人识别问题。从本质上讲,我们通过应用少量学习和对抗训练来解决数据不足问题。具体来说,这项工作的主要贡献如下:

bull;与传统的基于神经网络的方法不同,后者依赖于足够数量的训练数据的可用性来实现高识别性能,我们将其建模为以下几种:镜头学习问题以克服数据不足。

bull;为了进一步改善模型的通用性,我们采用对抗训练。对抗性示例用作动态增强数据,对其进行优化可以生成更通用,更可靠的说话人识别系统。 bull;我们在现实数据集上对我们的方法进行了全面的实证评估。实验结果表明,在说话人识别中,我们的方法AFEASI明显优于11种常规基线方法。

2问题陈述

在本节中,我们正式定义这项工作的目标并总结本文中的标记。给定一小段音频x及其梅尔频率倒谱系数(MFCC)mx作为特征,本文的目标是识别一组已知讲话者中的讲话者身份y。特别是,在这项工作中,我们通过限制有限的训练音频,专注于与文本无关的自动说话人识别。为了更好地解释所提出的方法,表1列出了本文的主要符号。

表1:符号及其说明摘要

符号

说明

x

一段音频

y

音频x后面的扬声器身份x

mx

音频x的梅尔频率倒谱系数

Ex

音频x的嵌入

ER

一组音频的代表性嵌入

W amp; b

网络权重和偏见

K

支持模块中的扬声器数量

N

支持模块中每个发言人的实例数

alpha;

注意机制中的重要权重

q

查询实例

Rk

说话者k的汇总表示

d(q, Rk)

查询q和说话者k之间的欧式距离

S

一组代表

L

损失函数

eta;

学习率

ϵ

摄动界

lambda;

调节器重量

Theta;

模型参数

Delta;

参数扰动

随机高斯噪声

tau;

重量以控制注入的噪音

xau

通过注入噪声合成音频

3方法论

在本节中,我们讨论如何通过学习有限的培训数据来识别说话者。为了实现这一目标,我们努力利用少拍学习和对抗性训练在训练过程中充分利用有限的实例。

3.1框架概述

在本文中,基于度量学习的少拍学习流水线被用于为以前很少说话的人进行N拍学习。更准确地说,该模型仅检查了N个实例(其中N是一个很小的数量)之后,便能够识别出以前很少见的说话者。

图1:AFEASI的总体框架

图1显示了AFEASI的框架,该框架通过执行N次射击,K向分类任务来执行讲话者识别,该任务具有K个不同讲话者的支持集以及该支持集中每个讲话者的N个训练音频实例。另外,给出一组查询音频实例用于预测。注意,尽管为了简化说明,图1仅显示了一个查询实例,但是AFEASI可以处理多个查询音频实例。对于每个音频实例x,AFEASI首先提取梅尔频率倒谱系数(MFCC)[37]作为声学特征mx,从而得出固定长度的矢量作为带有嵌入层的音频嵌入Ex。基于音频实例的嵌入,聚集的嵌入被构造为支持模块中每个说话者的代表。然后,AFEASI优化查询实例的嵌入与相应发言人的代表之间的距离,以便可以用来识别发言人身份。优化的过程可以概括为在一个空间中找到距离度量,在该空间中,同一说话者的实例被嵌入为尽可能彼此靠近,并且尽可能远离其他说话者的实例。为了进一步全面利用训练数据,我们在查询实例上引入了动态对抗性扰动,以通过提高AFEASI对未知实例的鲁棒性来增强其泛化能力。为了更好地可视化此部分,在框架中以红色突出显示对抗性学习。

3.2嵌入表示学习

在本节中,我们讨论如何在给定音频xi的情况下构造嵌入。我们首先通过将mel频率倒谱系数(MFCCs)[37]构造为声学特征,将其转换为频域,将其表示为mxi。首先使用2D卷积层从原始MFCC中提取信息特征。然后将生成的特征图馈入激活层以引入非线性。我们进一步采用残留的快捷方式连接[11]来导出音频MFCC的表示。公式1总结了以下关键操作:

C1 = Relu(Relu(Conv1(mxi)) mxi),(1)

其中Relu(·)和Conv1(·)分别是激活层和2D卷积层。为了全面地提取局部特征,我们将上述基于残差的卷积运算重复H次:

Ch = Relu(Relu(Convh(Ch-1)) Ch-1),hgt; 1,(2)

其中Ch是第h个卷积层的特征图。最后,可以通过在第H个卷积层处将特征图CH展平来构造嵌入Exi,从而用作输入音频xi的表示。

3.3代表性的嵌入结构

如框架的支持模块所示,对于每个说话者,我们的目标是派生一个代表性的嵌入,它总结了讲话者的声学生物特征。我们开发了一个聚合注意层,以了解特定发言人在每个音频嵌入中的重要性权重。形式上,聚集关注层可以表示为:

alpha;i= softmax(c·tanh(W·Exi b)),(3)

,(4)

其中W和b是用于计算关注度的参数权重alpha;i。首先将每个音频嵌入Exi馈入一层神经网络。其输出与上下文向量c一起,通过softmax函数进一步用于为每个音频嵌入Exi生成重要性权重alpha;i。基于所学习的重要性权重,将聚集的嵌入ER计算为音频嵌入的加权和。

3.4少量学习

在本节中,我们讨论如何将说话人识别任务建模为几次学习问题。在这项工作中采用了一种基于度量学习的快照式学习框架,该框架由两个模块组成,即支持模块和查询模块。如图1所示,我们首先从训练集中随机抽取一组说话者作为构建支持模块的起点。对于支持模块中的每个扬声器,我们进一步随机采样k个音频实例,并导出相应的MFCC。这些MFCC进一步被馈送到嵌入层,因此我们可以使用固定长度的矢量来表示每个音频实例。为了全面表示扬声器的声学特征,我们利用注意力机制来汇总其声学嵌入。在查询模块中,我们从扬声

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[409629],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。