片上英语语音识别系统外文翻译资料

 2022-08-07 11:29:44

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


片上英语语音识别系统

摘要

英语语音识别系统是在称为“片上语音系统”(SoC)的芯片上实现的。 SoC包括带有矢量加速器的专用集成电路,以此来提高其性能。这款语音识别系统是在一块价格十分低廉的语音芯片上,搭载基于连续密度隐马尔可夫模型识别算法的子词模型,该算法是一个两阶段固定宽度波束搜索基线系统,具有可变的波束宽度修剪策略和帧同步词级修剪策略,可显着减少对于语音的识别时间。测试表明,与原始系统相比,该方法将识别时间减少了近6倍,并将内存大小减少了将近2倍,对于600个单词的识别任务,准确度仅下降了不到1%,识别准确率约为98%。

关键词:非特定的人类语音意识;片上系统;梅尔频率倒谱系数(MFCC)。

介绍

随着便携式的手持设备的飞速发展,嵌入式语音识别系统也变得越来越重要。然而,由于芯片的成本十分高昂,当前,只有少数的产品可以使用这种技术。 本文介绍了一种基于芯片的价格廉价的英语语音识别系统,该芯片包括一个具有16位协处理器的16位微控制器,一个32 KB的RAM和16位的A / D和D / A。

这款芯片使用的识别模型是基于子词连续密度隐藏马尔可夫模型(CHMM)模型,并具有梅尔频率感知系数(MFCC)特征。识别引擎采用双通道波束搜索算法,大大提高了实现的效率,也降低了系统成本。该系统可用于诸如消费电子产品,手持设备和家用电器之类的命令控制方面的设备上,因此这个系统具有很多方面的应用,SoC的语音识别的识别精度超过97%。

片上语音识别系统的硬件架构是为实际应用而设计的,系统的所有硬件都集成在单个芯片中,为性能,尺寸,功耗,成本以还有它的可靠性都提供了最佳解决方案。语音识别片上系统由通用微控制器,矢量加速器,16位ADC / DAC,模拟滤波器电路,音频输入和输出放大器以及通信接口组成。此外,该芯片还包括电源管理模块和时钟模块。由于矢量加速器,专用集成电路(ASIC)的计算能力远大于微处理器控制单元(MCU)的计算能力。与DSP不同,这个ASIC集成了ADC,DAC,音频放大器和电源管理模块,而没有一些不必要的电路来降低成本。图1展示了未封装芯片核的照片,它的框图如图2所示,下面将详细介绍每个框图。

图 1 芯片的照片

图 2 SoC的框图

芯片的软件设计

语音识别过程如图3所示。来自麦克风的语音信号经过低通滤波器进行预放大和滤波,然后由ADC以8 kHz采样频率进行采样。然后将信号分段成帧,形成连续的语音帧序列。然后将该序列发送到端点检测和特征提取单元。两阶段匹配后,系统输出识别结果。结果可以发送到电路或LCD显示屏。

图 3 语音识别系统

1.1软件级别划分

不管操作系统或网络结构是如何的,分层设计通常应用于复杂的系统。较低的层级提供底层服务和低级的管理。每一层是被封装的,因此较高的层无需了解低层级使用的方法,而较低的层级也则无需了解其目的。由于每个模块在逻辑上都与分层设计相关,而结构层增加了系统的灵活性,从而提高了系统的适用性和灵活性,并增强了系统的可靠性,健壮性和可维护性。如图4所示,系统软件分为驱动层,通用模块层,功能模块层和调度层。将软件和硬件隔离的驱动程序层包括所有中断服务程序和中断服务程序。外设驱动程序。通用模块层包括提供基本计算和操作服务的各种基本操作模块。功能模块层包含各种功能模块作为核心算法。作为顶层的调度系统控制着以任务调度为核心的全球数据维护系统的超循环。

图 4 软件部分

1.1.1 驱动层

驱动层程序允许硬件部分的直接操作,在这个级别的程序模块通常是对应于实际的硬件模块有效的,比如说存储器、外围接口和通信接口。这些功能在硬件模块和上层程序的应用程序接口之间提供接口。

1.1.2 服务层

驱动层程序提供对硬件的基本支持,但是并不提供任何的扩展或增强的功能,而服务层为应用层提供了强大的接口程序,进一步提高了系统性能。因此,服务层改进了硬件特性的使用。

1.1.3 调度层

不同的输入选择不同的子任务,比如说语音识别、语音编码和语音解码,这些子任务对于不同的异步事件都有不同的响应时间。然后调度层调度这些不同的任务。整个系统的设计是为了提供良好的实时性能,调度层提供了系统程序之间的无缝连接,以完成应用程序,而应用程序不需要考虑如何调度执行。调度也有助于控制DSP的功耗。

1.1.4 应用层

然后,应用程序级程序将使用API接口功能提供的驱动程序级,服务层和调度程序以便用户可以专注于任务,比如说英语命令字识别引擎这样的应用程序。因此,每个应用程序都依赖于应用程序层的过程,大多数(如果不是全部)更改仅基于应用程序需要在应用程序中进行,而驱动程序,服务和调度层的更改相对较小。驱动程序,服务和调度层程序充当系统内核层,而应用程序层程序充当用户程序。

1.2 双通道波束搜索算法

该系统中的子词模型是基于连续密度隐藏马尔可夫模型(CHMM)实现的,每个状态的输出概率分布都是由高斯混合模型(GMM)描述。上下文音素之间的关系分类为Monophone,Biphone和Triphone。模型越复杂的话,识别率就越高。但是,得到越复杂的模型也需要更长的时间。因此,即使识别率可以达到近100%,更复杂的模型也是并不实用的,而使用非常简单的模型的较快系统无法获得令人满意的结果。因此,如图5所示,采用了双通道波束搜索策略来优化性能,如图5所示。在第一阶段,搜索使用近似模型,例如具有高斯混合的Monophone模型。这种“快速匹配”为第二次搜索生成了一个最佳假设列表。第二阶段是使用Triphone模型和三种高斯混合对最精确的假设进行详细的匹配。为了减少计算量,高斯混合模型的协方差矩阵在快速匹配阶段和详细匹配阶段均应为对角线。计算所有状态的输出概率得分,然后使用维特比方法一一匹配。

图 5 双通道波束搜索算法结构图

1.3 前端特征的提取

嵌入式语音识别系统必须使用强大的功能。事实证明,在存在背景噪声的情况下,与其他特征参数相比,梅尔频率倒谱系数具有更强的鲁棒性。由于MFCC功能的动态范围有限,因此MFCC可以用于定点算法,并且更适合于嵌入式系统。此处选择的MFCC参数在性能和计算要求之间提供了最佳折衷。 一般而言,增加的特征向量维可提供更多信息,但这会增加特征提取和识别阶段的计算负担。

不同特征的最终识别结果如图6所示。在四种高斯混合的情况下,第一步需要十二个候选者才能达到99%的识别率。在34个特征案例中,最高识别率为99.22%,在22个特征案例中,识别率为99.01%,可以满足系统要求。因此,从12维MFCC,12维差MFCC,12维第二差MFCC以及归一化能量及其一阶和二阶差中选择22维特征向量。

图 6 不同模型的识别率

2 测试结果

这次测试有40名志愿演说者参加,使用的这些词汇由名字、地点和股票名称组成,词汇表里总共有600个短语,每个短语由2至4个英语单词组成,每个演讲者讲一次。 通过以8 kHz / s的速度通过USB接口采样输入来测试系统识别的准确率。在这样的条件下,识别测试的条件几乎与实际条件相同,因此可以正确评估统计识别精度。

第一识别阶段使用相对简单的声学模型来产生具有高识别率的多候选识别结果。图7显示了使用600个词组词汇的多候选结果的识别率。尽管一个候选人的首次识别模型仅获得93.7%的识别率,而六个候选人的识别率却达到98%。 此后,随着候选人数量的增加,识别率的上升趋势显着放缓。在大多数情况下,前四名候选人中都包括正确的结果。因此,将第一阶段的十二个候选者用于第二阶段,并与更复杂的声学模型进行匹配。然后在第二阶段识别率达到99%。

图 7 不同的实验者的识别率

表1显示了使用不同尺寸的最终系统识别率。所有评估均在噪声水平中等的办公环境中进行。 尽管识别率随词汇量的增加而降低,但600个词组的识别准确率仍为98%。 在实际环境中使用600个短语的识别时间约为0.7 RTF(实时因子)。 因此,该系统可以有效地处理600个词组词汇。

表 1 语音识别系统性能

这些中等大小的词汇识别SoC系统的最佳功能是低频(48 MHz)和所需的较小系统资源(48 KB)。为了获得相同的性能,IBM Strong ARM需要200 MHz的频率和2.2 MB的内存,而Siemens ARM920T需要100 MHz的频率和402 KB的内存。

3 总结

本文主要介绍了在SoC平台上实现的英语的语音识别系统。该系统使用带有矢量加速器的ASIC和开发为使用ASIC体系结构的语音识别软件。测试表明,该系统可在很短的响应时间(0.7 RTF)下获得比较高的识别精度(超过98%)。 面向嵌入式应用的灵活快速语音识别解决方案的ASIC设计只有48 KB RAM。 未来的工作将改善算法,以减少识别时间并在内存和调度发生变化的嘈杂环境中提高系统的鲁棒性。这个系统可以在中文或者英文的语音芯片上面使用。

参考文献

  1. Guo Bing, Shen Yan. SoC Technology and Its Application. Beijing: Tsinghua University Press, 2006. (in Chinese)
  2. Levy C, Linares G, Nocera P, et al. Reducing computation and memory cost for cellular phone embedded speech recognition system. In: Proceedings of the ICASSP. Montreal, Canada, 2004, 5: 309-312.
  3. Novak M, Hampl R, Krbec P, et al. Two-pass search strategy for large list recognition on embedded speech recognition platforms. In: Proceedings of the ICASSP. Hong Kong, China, 2003, 1: 200-203.
  4. Xu Haiyang, Fu Yan. Embedded Technology and Applications. Beijing: Machinery Industry Press, 2002. (in Chinese)
  5. Hoon C, Jeon P, Yun L, et al. Fast speech recognition to access a very large list of items on embedded devices. IEEE Trans. on Consumer Electronics, 2008, 54(2): 803-807.
  6. Yang Zhizuo, Liu Jia. An embedded system for speech recognition and compression. In: ISCIT2005. Beijing, China, 2005: 653-656.
  7. Westall F. Review of speech technologies for telecommunications. Electronics amp; Communication Engineering Journal, 1997, 9(5): 197-207.
  8. Shi Yuanyuan, Liu Jia, Liu Rensheng. Single-chip speech recognition system based on 8051 microcontroller core. IEEE Trans. on Consumer Electronics, 2001, 47(1): 149-154.
  9. Yang Haijie, Yao Jing, Liu Jia. A novel speech recognition system-on-chip. In: International Conference on Audio, Language and Image Processing 2008 (ICALIP 2008). Shanghai, China, 2008: 166-174.
  10. Lee T, Ching P C, Chan L W, et al. Tone recognition of isolated Cantonese syllables. IEEE Trans. on Speech and Audio Processing, 1995, 3(3): 204-209.
  11. Novuk M, Humpl R, Krbec P, et a

    剩余内容已隐藏,支付完成后下载完整资料


    资料编号:[246065],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。