英语原文共 64 页,剩余内容已隐藏,支付完成后下载完整资料
摘要
沟通一直是人类和社会生活的重要组成部分。
有许多不同的语言和不同的口音,因此你可以在一个地方说英语,却不能和说英语口音不同的人有效地交流。语音/语音数据有几个重要的应用领域,如健康、安全、生物特征分析或教育。
然而,大多数研究侧重于英语、阿拉伯语或亚洲语言,而忽略了其他相关语言,如葡萄牙语,这使得他们的研究大为开放。
因此,了解这一领域是至关重要的,其中的主要重点是:什么是最常用的特征提取和分类技术,等等。
本文综述了葡萄牙语作为一种辅助语言的自动语音识别部件及其变体。
2012年至2018年共发表101篇论文,阐述了基于葡萄牙语的自动语音识别领域的发展趋势,并以协作和全面的方式提出和讨论了几种可能的未探索方法,作为我们的主要贡献。关键字:自动语音识别,文本到语音,语音识别,葡萄牙语,调查
- 简介
几千年来,沟通能力被视为人类最重要的互动之一(Stacks和Salwen,2014)。通过写作、画画、做手势和说话,个人可以分享思想、展示情感、结交盟友,甚至树敌。沟通对人际关系、文化多样性和社会背景的影响(Ruesch等人,2017年)。虽然每一种交流都有其独特性,但也有一个随机的方面使它成为个人的一部分。这种特征不能与他们的社会和文化群体分离(Muslim,2007年)。
这种情景同样适用于口语交际,这是一种自然的人类社会现象。据Eberhard等人,2018年,世界上7097种活的语言都有独特的语言。同一个来源将一种活的语言定义为“至少有一个人的语言是他们的第一语言”。
然而,目前各种各样的口语并不意味着它们在世界人口中的分布是均匀的。因为全世界一半以上的人口只说23种语言(Eberhard等人,2018年)。最流行的口语语言受益于自动语音识别(ASR)、自然语言处理和计算语言学的大量资源。另一方面,一种不受欢迎的语言由于缺乏研究和开发专用技术的资源而受到损害,因此,这类技术的发展对资源不足的语言的重要性值得一提。然而,有些语言介于流行和稀有之间。葡萄牙语就是这样,葡萄牙语是世界上第六大以母语为母语的语言(Eberhard等人,2018)。然而,它得到的资源远远不及普通话、西班牙语或英语,这一独特的语言地位促使研究人员在2012年至2018年间集中精力研究它。
计算机科学研究的许多突破可以归功于开发或最近提供的计算资源数量的增加。ASR正与这些进展保持同步,并在分类任务方面有了实质性的改进(Arel等人,2010年)。然而,资源不足的语言通常会在新的目标语言上重新训练流行的声学模型。这不仅不可靠(Schultz和Kirchhoff,2006年),而且不考虑通信系统的语音和语法差异(Besacier等人,2014年)。
本文拟对葡萄牙语ASR及其变体的研究进行总结和评价,找出文献空白,为今后的研究指明方向。因此,为这一课题的新科学家创造了一个起点。
本文的结构如下。第2节将介绍用于选择本次审查工作的标准,第3节将介绍ASR。接下来,第4节概述了可用于ASR的资源,介绍了第4.1节中的语料库列表,以及第4.2节中搜索过程中探索的一组工具和软件。然后概述第6节中的特征向量,接着介绍第5节中的一些应用。针对第7节中的方法,给出了语音到文本(STT)系统的分类。之后,第8节强调了研究的差距和可能的方向,在第9节结束。
- 自动语音识别
ASR系统可以看作是一个数学模型,它可以进行语音到文本的转换,生成与已识别的语音输入片段相对应的文本(Ghai和Singh,2012年)。这种模型非同小可,它可能必须处理包含不同种类噪声、不同扬声器及其特定特性的信号。
这些特征的例子包括节奏或语速、口音、特殊语调,甚至是发音错误(Muslim,2007年)。
语言的多样性导致ASR系统发展成不同的语言特定系统,以应对诸如语音语料库等资源的可用性(Besacier等人,2014)。
尽管ASR系统仍然由特定语言的模型组成,但最近的研究表明,多语言模型不仅是可行的,而且可以用于资源不足或不足的语言的引导模型。有可能认为,事实上,在计算建模方面,人类语言彼此并没有那么大的不同(Tong等人,2017;Vu等人,2014)。尽管如此,重点关注仍在调查中的主要口语(如葡萄牙语)的具体情况是非常重要的。
如前所述,本次调查主要针对葡萄牙语及其变体的研究,由于多语言语音识别是这一领域的一个趋势,因此本次研究也将涉及到多语言语音识别。本文还讨论了与语音识别相关但不能严格归类为语音识别问题的研究。例如,疾病诊断、辅助语言习得和语音风格检测,因为所提出的模型与ASR非常相关。
专注于自动语音识别系统的最新技术的作品通常包括几个部分,每个部分都有助于综合声学或语音建模、语言建模以及词汇或语音建模方面的知识。事实上,在很长一段时间内,提出新模型的最常见方法是试图利用不同来源的知识来提高模型效率(Chebotar and Waters,2016)。
在有些不同的方向上,大数据方法试图利用培训数据提出或改进现有模型(Kapralova等人,2014)。这种方法长期以来受到负面批评,因为他们提出了黑箱模型,使其难以解释
模型如何工作,甚至降低了这些模型的可靠性,因为很难预测模型何时会失败(Torres Huitzil和Girau,2017)。即使有这些担忧,与已经建立的模型相比,最近的深度学习模型的性能改进也是不可否认的(Zen等人,2016)。以下部分将介绍一些与自动语音识别相关的主要资源。
4.自动语音识别资源
由于对葡萄牙语的研究还很有限,因此开发此类通信系统的技术一直是一个挑战。因此,本节介绍了葡萄牙语的主要资源,如所收集的著作中所述。尽管如此,有必要记住,语言的资源是根据声学模型和防止过度拟合和其他问题所需的数据量来定义的(Heigold等人,2013)。例如,将同一种语言分别应用于基于深度神经网络(DNN)和多层感知器(MLP)或支持向量机(SVM)方法的分类器时,可能会被视为资源充足或资源不足,因为前者需要的数据远远多于后者(Besacier等人,2014)。葡萄牙语ASR资源的重要收藏由(Neto等人,2011年)提供,其中提到了一些工具和语料库,包括LapsMail语料库。
为了更好地理解,这些资源分为数据库和工具包。接下来的两个部分将探讨葡萄牙语自动语音识别的主要最新贡献。
4.2工具和软件
当开发一个新的模型或为一个新的语料库添加注释时,使用现有工具的决定对于利用以前的研究所取得的经验和改进来节省时间是至关重要的。本节简要介绍了研究人员使用的一些工具,这些工具至少出现在我们选定的两篇论文中。因此,这些工具和软件都与葡萄牙语有关,HTK是研究界最早免费使用的软件之一。它是由(剑桥,1993)和C语言编写的。此外,它还提供了用隐马尔可夫模型(HMM)建立基线系统的方法。在我们的论文列表中,使用此工具包的是(Veiga等人,2014;Veras等人,2014;Zen等人,2016)。它也可以用于其他应用,而不是语音识别。
Sphinx受雇于(Cox and Davies,2012;Oliveira et al.,2012b;Silva et al.,2012;Souza and Neto,2016),是另一个受欢迎的软件包,由卡内基梅隆大学(University,1986)的研究人员在伯克利软件发行许可证下用Java编程语言开发,并由一个蓬勃发展的社区维护了几十年,就像HTK一样,Praat(Boersma和Weenink,1991)软件是一个基于GUI的可视化分析和音频文件操作工具。该软件在(Souza和Neto,2016年)进行了测试,以开发巴西葡萄牙语自动语音校准器。此外,在(Hamalainen 等人.,2014b;Karmele et al.,2015;Hamalainen et al.,2014c;Mendoza et al.,2014;Proencedil;ca et al.,2014)中也探索了该工具。此外,这是最流行的开源工具语音电话对齐和语料库注释。然而,这个工具最常用作特征提取软件,以及openSMILE,因为它有一些流行的功能可用。
朱利叶斯(Akinobu,1997)最初是与京都大学合作开发的。它具有多种语音识别功能,如强制对齐工具和几乎实时计算。它最初是为日语创建的,现在已经扩展到接受其他语言,同时保持了成为LVCSR非常高效的工具包的目标。作为HTK,它基于HMM模型。Kaldi软件(Povey 等人,2011)由(Batista 等人,2018;Ghoshal e等人,2013;Gelly 等人,2016;Lee 等人,2016;Lu 等人,2014;Mohan and Rose,2015;Ravanelli 等人,2015;Swietojanski 等人,2012;Tong et al.,2017;Vu 等人,2014)使用,于2009年开始开发,在约翰霍普金斯大学举办的题为“新语言和领域的低开发成本、高质量语音识别”的研讨会上(Povey等人,2009)。
这个软件在研究界非常流行。事实上,它是我们收藏的报纸中最受欢迎的。它的模型是基于子空间高斯混合模型(SGMM),编码在C 编程语言上。另一个值得一提的语音短信工具是语音备忘(Lui等人,2004)。
不仅语音到文本,而且与语音相关的应用程序都有这样的工具和软件。对于说话人识别系统,有Alize和BOSARIS(Br–ummer和De Villiers,2013),用于(Pellegrini等人,2014)。
对于语言建模,SRILM允许用户快速生成统计分类器的语言模型。
本节介绍的每个工具都可以免费使用。此外,Praat和Julius以及openSMILE都是开源软件。在操作系统(OS)支持方面,只有HTK是Linux专用的,而Praat有一个Mac版本,Sphinx可以为这个操作系统编译。然而,上面的一些软件似乎已经过时,因为HTK的上一个版本是在2016年,Julius的最新日志是在2014年,Praat没有分享这些信息。另一方面,Sphinx和Kaldi定期更新各自的存储库。此外,C和C 是该软件最流行的语言,即使Python和java也有这种语言。从本节的内容可以清楚地看出,与数据集的可用性以及其他语音处理技术的使用相比,该领域的工具非常丰富。基于葡萄牙语的解决方案在探索自动语音识别时并不是重点,这证明了这种行为的合理性。下一节将探讨葡萄牙语ASR应用的主要领域。
5.应用
ASR的当前状态允许开发用于除将信号转换为文本以外的目标的系统,例如语音功能障碍的治疗(Abad等人,2013;Rocha等人,2017)。因此,本节将介绍以语音识别技术为次要目标的论文。大多数应用程序依赖于单语方法(更多细节见第7节),例如对儿童阅读能力的评估(Proencedil;ca 等人,2015,2016),进一步分析(Proencedil;ca 等人,2017)。第二语言学习,由(Pellegrini等人,2013a)进行了更详细的阐述,也使用了得分诱导的口头反应(Cox和Davies,2012)和评估语言(即葡萄牙语)熟练程度的测试,以及发音的优点(Ribeiro等人,2015)。与前者相比,后者更多的是定性的工作。
语音识别也被用作人类与计算机交互的更自然的界面。为了在儿童和科技之间建立更好的互动,(Alves等人,2014年)构建了一个执行一组命令的语音驱动机器人。使用语音命令,还可以操作医疗和图形系统(Furtado等人,2015年;Rocha等人,2016年)。由(Teixeira等人,2014年)和(Lecouteux等人,2018年)开发了一个虚拟老年助手。后者研究了语音人机交互的有效性。该系统进一步增强(Hamalainen 等人,2015),增加了手势和触摸界面。它被命名为AALfred项目,旨在促进老年人与技术的互动,使他们能够通过语音命令访问web和一些桌面应用程序。然后,开发了呼叫中心的自动应答系统(Oliveira等人,2012a),与传统键盘系统相比,为客户提供了更好的对话。
此外,语音对语音翻译系统(Matsuda等人,2013)能够将一些语音信号转换为其他语言。
其他旨在提高这些系统噪声鲁棒性的应用,例如混响信号(Veras等人,2014年)或应用的维纳滤波器(Lima等人,2015年)。两种方法对噪声信号都取得了不错的效果。而另一些人则试图根据三个类别对语音风格进行分类(Veiga等人,2012年):Lombard、prepared和Unpared。一些电视节目的自动转录系统,通常将MLP与HMM结合以达到21%的字错误率(WER)(Abad等人,2012a)。类似的应用由(Alvarez等人,2016;Kapralova等人,2014;Lopes等人,2012b)开发。这些文字记录允许为不同的媒体内容自动生成字幕,有助于听障人士的数字化融入。这个过程允许语音识别研究使用更大的数据集。由于数据的转录通常是手工完成的,因此对于大量的数据来说既困难又昂贵。在处理多媒体的同时,还开发了音频(Veiga等人,2014年)和视频(Eduardo和Eduardo,2018年)的关键词识别系统,以在语音信号中找到特定的单词。对内容过滤器中主题相关特征的使用进行了调查(Pereira等人,2015)。这些系统提供了一种根据用户偏好自动总结大量数字内容的机制。
在医学应用中,一些神经系统问题以某种方式影响语音信号(Logemann等人,1978)。因此,我们探索了阿尔茨海默病(Karmele等人,2015年)和帕金森病(Proencedil;ca等人,2014年)的诊断应用,试图创造一种更有效、更少麻烦的早期诊断这种临床状态的方法。
本节介绍了一些使用ASR解决方案实现不同目标的应用程序。从医学软件到多媒体内容的自动翻译,它们的领域
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[239411],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。