语音识别外文翻译资料

 2022-07-25 14:01:24

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


语音识别

电子与通信工程,拉马努金斯里尼瓦萨中心部,

Sastra酒店大学,贡伯戈讷姆-612001,印度泰米尔纳德邦

摘要:语音处理是对处理语音信号的研究,它与自然语言处理密切相关。本次调查研究的目的是使作者本人对于语音处理和识别看法。特别是笔者看一些技术方面的研发支持这些最近的事态发展,并展望目前的研究这将能够在准确度和规模进行语音处理创新的下一个浪潮。

关键词:HMM,语音处理,语音识别

介绍:

人们发现语音是传达信息最方便和有效的手段。相比之下,计算机终端更喜欢汇编器和编译器的符号进行交换,通常情况下,印刷形式。如果计算机可以给予语音通信,他们对人类会增加利用价值和易用性类人的能力。无处不在的电话将承担更多的计算机终端的功能。制冰机交谈,并听取人类依赖于经济的实现语音合成和语音识别。在此之前的复杂性和这些功能的成本已经阻碍了广泛的应用。但现在,通过集成的电子元件的发展推波助澜,为扩大和加强电话服务的机会不断涌现。

本次调查研究的目的是使集体想法的作者本人观点研究发生在语音处理和识别。特别是笔者看一些技术方面的研发支持这些最近的事态发展,并展望目前的研究这将能够在准确度和规模进行语音处理创新的下一个浪潮。

文献综述

许多研究者发表了大量的论文,其中存在HMM作为工具,对实际问题的应用。这些论文被感兴趣的模式识别研究人员写的,往往在工程或计算机科学的观点来看,他们通常专注于算法和对实际情况的结果。研究语音处理在70年代初期开始启动。莱尼鲍姆发明认识到讲话世纪70年代初被称为隐马尔可夫模型(HMM)的数学方法。在语音识别中,隐式马尔科夫模型已被用于建模观察从1970年的模式。该HMM模式匹配策略最终被各个大公司寻求语音识别技术(SRT)的商业化的采用。国防部美国能源部在70年代,涉及几个承包人,包括IBM,龙,AT&T,飞利浦等赞助的许多实际的研究项目。

隐马尔可夫模型(HMM)是用于建模广泛多样的应用,包括自动语音识别,自然语言处理(NLP)和基因组序列建模离散时间序列的最根本,最广泛使用的统计工具之一。人们可以看到,Leonard等人的研究之后(1967年),这种方法已经变得如此受欢迎,是因为固有的统计(数学精确的)框架,轻松自如和训练算法可用性估算有限的训练集语音数据的模型的参数;所得的识别系统,其中可以很容易地改变尺寸,类型或模型的体系结构,以适应特定的字,声音的灵活性等;并且便于实现整个识别系统的。

罗尔斯(1971年)规定,仅使用一个小型计算机(8K内存)一个新的实时识别系统和一些模拟外设。第一频谱分析是由17 1/3级倍频带通滤波器组的单词的发音期间进行,而滤波器的输出被对数扩增。进一步包络的最大振幅被确定并且每隔15毫秒采样。以这种方式一个字是在17dimensional空间特征在于采样点的序列。然后,将空间17的尺寸由主成分分析减少到3。线性时间归一化之后,口语的三维轨迹20个参考轨迹相比,代表20个可能的话语。本机通过命名的最佳拟合跟踪回应。随着20个扬声器设计组,机器的时间正确的98.8%。

使用字符串编码的孤立词识别系统是由白色(1972年),已经在有限的词汇(20-54字)达到98%的正确识别率叙述。另外,音箱规范化,分词和学习范式已被纳入。在他的实验的音频输入通过一个6路倍频带通滤波器组,并且每个通道的输出被时间积分为10毫秒和日志映射。在由6倍频程的发声是由点的连续表示所定义的6维空间(一个新点每10毫秒产生的)。每个时间间隔已经分配最接近参考点的标签。编码话语与精确的任意程度,从使用的更多的参考点导致更高的分辨率进行的字符串。只需要24基准点达到98%正确识别分数近乎实时54字。此外,串生成技术和基于字符串几个学习方案进行了描述。

一种机器识别连接的语音和具体实施传闻制度的细节模型,雷迪等人提出。 (1973年)。该模型由一小组协作,其能够有助于在讲话发音的解码单独或集体独立并行进程的。该过程使用“假设-andtest”范例。语音棋:传闻结构通过考虑它在一个特定的任务的情况的操作说明。现在的任务是认识到在给定板位置口头举动。测定的参数,分割和语音描述程序进行了概述。采用的产生和假设检验知识的语义,句法,词汇和语音的来源描述。

对于信道A的新模型被巴尔和耶利内克(1975)中,其中一个输入序列产生不同长度的输出序列说明。另外一个堆栈上这样的信道解码和相应的似然函数译码算法,推导出在内存通道进行了审议。此外,一些应用到语音和字符识别也通过他们讨论。各种自动语音识别的实验已被金博尔和罗斯科普夫(1976a),支持对话语分类信心的措施执行。

在自动识别连续语音的有用的统计方法由耶利内克(1976b)中所述。他们关心的扬声器的建模和声学的处理器,该模型的统计参数和假设搜索程序和可能性计算提取用于解码。实验结果表示,该表示的方法的力量。

同年,自动语音识别实验是由白色和尼利(1976c),其中几种流行的预处理和分类策略进行比较说明。预处理或者由线性预测分析或通过带通滤波完成。这两种方法都证明产生类似的识别率。该分类使用是线性的时间拉伸或动态编程来实现时间校准。结果表明:动态规划是认可的多音节词重大意义。语音压缩成准音素字符串或保留未压缩。最好的结果与未压缩的数据获得的,使用非线性时间登记多音节词。

对语音识别机械进一步的研究奠定了它是由白色(1976d)进行模式识别和人工智能显著的进步奠定了基础。现有技术的自动语音识别的状态的出台是由他提供的。

使用语音采样的说话者无关的语音识别系统是由Gupta等人完成的自回归(线性预测)。 (1978年a)。在他们的实验中,从一个标准的40个字的阅读考试的词汇量孤立词是由25个不同的扬声器发言。对于每个字的参考图案被存储为50个连续重叠时间窗尤尔·沃克公式的系数。为了获得认可和计算速度的准确性,提出和评估各种距离度量。最好的措施给予肯定的90.3%的速度。两个最近邻和Knearest邻居算法中实现的决策方案使用。计算是由一个固定数量的迭代之后作出顺序决定最小化。据观察,在计算上加上对窗口的匹配的非线性时间扭曲功能的距离测量gaves最佳结果。然后扬声器的数量增加到105,显示结果的统计意义。与105的扬声器最好的程序获得的识别率为89.2%。识别时间,此过程是每句话9.8秒。

此外,在同一年,卡什亚普和米塔尔(1978年b)中所描述的任何成员在给定组扬声器讲一个给定的词汇识别孤立的单词和短语的一种方法,说话者的身份暂时未知系统。在他们的实验中,这个词发声分为20-30几乎相等的帧,帧边界被用为浊音声门脉冲对齐。音调周期的恒定数目被包括在每个帧。统计决策规则用于确定在每个帧中的音素。从发声的所有帧使用音素串,使用(音韵)语法规则获得的单词决定。此处所使用的语法规则的2种类型,即:

Ccedil;那些英文单词,从建设的理论获得从音素适用于我们的词汇。

Ccedil;那些用于校正在较早获得基于相邻段的决定音素决定可能的错误。

它们所使用的词汇与40个字,其中包括许多个双字它们音位彼此接近的。扬声器的数量为6的扬声器的身份是未知的系统。在测试400字发音,识别率是音素(11音素)约80%,但字的识别率为98.1%正确。语音 - 句法规则在提升超过音素识别率的单词识别率方面发挥了重要的作用。

秀文等。 (1982a)用WalshHadamard变换(WHT)开发了一种低成本的说话者相关的语音识别单元。一个WHT LSI已经被开发,以减少成本和识别单元的空间,并已获得的识别率较高。语音识别算法和LSI是由他们说明。利用计算机技术,语音识别由詹姆斯·分析(1982b)。

训练语音识别,提出方式是由纳达斯(1983年)的优化问题。在他的实验中,最大似然,而启发式,被示出为在一定条件下,以另一个启发式优越:条件最大似然法。语言模型概率由经验贝叶斯方法,其中用于所述未知概率的先验分布本身通过数据的一个新颖选择估计估计。由此拟合模型的预测能力是由它的实验困惑于模型的方法相比,安装了耶利内克默瑟删除,估计和安装由图灵良好的公式,通过纳达斯看不见或罕见事件的概率(1984年) 。

高性能,灵活的和潜在廉价的语音识别系统是由Murveit和BRODERSEN(1986)中。它基于非常高效地进行语音识别的两种算法特殊目的集成电路。一这些集成电路的是前端处理器,它从输入的语音计算的频谱系数。第二集成电路计算一个动态时间扭曲算法。该系统相比1000字模板输入字和1/4秒内响应用户。该系统表明计算复杂性不必是语音识别系统的设计中的主要限制因素。

在独立扬声器孤立数字识别的背景下,Bocchieri和Doddington(1986年),提高了识别性能表现在:

Ccedil;明确建模相邻帧的频谱测量之间的相关性。

C使用的距离量度是所使用的识别参照帧的功能。

统计模型是从2464令牌数据库(2令牌每11个字“零”,通过“九”和“哦”)为112的扬声器产生。主要功能包括能源和滤波器组的幅度。 Interspeaker变异是由时间调整所有培训令牌和创造的每一个参照系224的特征向量合奏估计。然后正态分布被单独估计每帧与邻国一起。测试是使用最大似然决策方法113(不同的)扬声器收集2486位口语令牌的multidialect数据库上执行。替代率从1.7下降到1.4%与框架之间统计的结合,并进一步到0.6%,而似然模型特定帧统计的结合。

Rabiner和壮(1986),得到的介绍马尔可夫模型的理论和说明它们是如何在他们的教程研究被应用到的问题在语音识别。他们涉及统计方法的作用,在这种强大的技术适用于语音识别和讨论了一系列是在他们的重要性及其对不同的系统实现性能的影响方面尚未解决的理论和实践问题。

的概率混合物模式为语音的帧(短期频谱)来描述在语音识别由纳达斯等人使用。 (1989)。该混合物的各组分被视为一个原型一个隐马尔可夫模型基于语音识别系统的标签相。自识别过程中的环境噪声可以从存在于训练数据不同,该模型的目的是为在改变的噪声方便更新。基于在任一通过信号能量或噪声能量占主导地位的任何固定的时间在一个频带中的能量,该能量被建模为在带信号和噪声的分离的能量的较大的观察。统计算法,给出了训练这是一个隐藏的变量模型。隐藏的变量是原型身份和所述​​单独的信号和噪声分量。成功地利用这个模型的语音识别实验说明

使用在自动语音识别的上下文无关文法是由内伊(1991)中讨论。在他的实验时间对准被纳入到分析算法。该算法同时执行所有功能,即时间校准,工作边界检测,识别和解析。作为结果,不需要后处理。但从概率上看,开创算法所观察到的输入字符串,这相当于维特比得分,而不是鲍姆 - 韦尔奇在定期或有限状态语言的情况下打进的最可能的解释或推导。该算法提供了一个封闭形式的解。该算法的计算复杂性进行了研究。

奈伊等。 (1992)中描述的体系结构和搜索组织为连续语音识别。他们识别模块是在连续语音识别和理解(SPICOS)系统在自然语言口语数据库查询的理解西门子飞利浦-IPO项目的一部分。该项目的最终目的是人机对话系统,即系统必须能够理解口语流利德语的句子,从而提供语音访问数据库。识别策略是基于贝叶斯规则,试图找到输入语音数据的知识来源方面的最佳诠释,如语言模型,发音词典和库存子字单元。搜索的实施,包括多达4000字的每个几位发言者的连续语音数据库上进行了测试。搜索组织的效率和耐用性都被检查,并沿许多方面,如不同的发言者,音素模型和语言模型中评估。

积分联结网络成隐马尔可夫模型(HMM)的语音识别系统,通过网络联结按Renals等概率估计的统计解释。 (1994)。他们回顾了HMM语音识别的基础上,指出了整合联结网络中可能带来的好处。他们使用说话者无关的DARPA资源管理数据库上评价一个多层感知概率估计描述了这样一个系统的性能。总之,他们发现一个联结部件改善了stateof先进的HMM系统。

估计共振频率的新方法是由威灵和奈伊(1998)提出的。基于数字谐振器模型。每个谐振器表示的短时功率谱的一个段。完整的光谱是由一组并联连接的数字谐振器的模型。基于动态规划算法产生两模型参数和段边界是最佳地匹配的光谱。他们用在在TI数字串数据的基础上进行了该实验测试该方法。实验测试的主要结果是:

C中的呈现方式在广泛的声音和扬声器产生的共振频率的可靠估计。

C中的估计共振频率在若干承认变种使用。

和尚-Ghazale和Hansen(2000)的研究评估了在应力下的语音识别的传统功能的有效性的和制定它们显示出改善强调语音识别的新功能。他们专注于制定强大的功能而较少依赖于讲条件,而不是申请补偿或自适应技术。考虑到强调说样式模拟愤怒和响亮。隆巴德效应言论和实际嘈杂的讲话强调从SUSAS数据库,可通过北约IST / TG​​-01的研究小组和最不发达国家在CD-ROM上。此外,该研究调查了线性预测的功率谱和快速傅立叶免疫力功率谱变换应力的存在。结果表明,不同的快速傅立叶变换的(FFT)抗噪声,线性预测功率谱更免疫比FFT以强调以及嘈杂和压力的环境的组合。最后,各种参数处理的诸如固定与可变预加重,liftering和固定对数倒频谱平均值正常化的影响进行了研究。提出并与传统Mel频率倒谱系数(MFCC)功能为强调语音识别相比,两种可供选择的频率划分方法。它表明,在备用滤波器频率分区是两个模拟和实际压力的条件下语音识别更有效。

福瑞(2001年)研究数字语音处理,合成和识别。他们的第二版包含的稳健和灵活的语音编码技术,波形单元基于级联,语音合成,大词汇量连续语音识别基于统计模式识别和更多的国际标准化的新章节。

MYOUNG-Wan等。 (2001年)提出了一个广义的信心评分(GCS)功能,使一个框架,以整合语音识别和验证话语不同的分数。然后根据GCS的改进解码器提出。地面站被定义为从各种信任信息源,如似然,似然比,持续时间,语言模型概率,等等由

全文共14841字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[154868],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。