基于递归神经网络的会议识别语言建模外文翻译资料

 2023-02-27 15:17:35

基于递归神经网络的会议识别语言建模

摘 要

我们使用基于递归神经网络(RNN)的语言模型来改进BUT英语会议识别器。在使用原始语言模型的基线设置中,我们通过n-best列表重查和语言模型调整将单词错误率(WER)降低了1%以上。当n-gram语言模型在与RNN模型相同的中等规模数据集上训练时,改进更高,产生的系统性能与基线相当。观察到RNN模型的无监督自适应有明显改善。此外,我们还考察了词汇历史对WER的影响,并展示了如何通过缓存公共前缀字符串来加快重新排序。

索引术语:自动语音识别,语言建模,递归神经网络,检索,自适应

正式介绍

文献[12]中提出的基于神经网络的语言模型在其他语言建模技术中表现良好。使用基于递归神经网络的语言模型在一些较小的任务上获得了最好的结果[10],[11]。在神经元网络中,隐藏层和输入层之间的反馈使得隐藏的神经元能够记住先前处理过的单词的历史。

语言建模中的神经网络有几个优点。与常用的n-gram语言模型相反,平滑是以隐式的方式应用的,并且由于整个词汇投影到一个小的隐藏层中,语义相似的单词被聚集在一起。这解释了为什么从基于神经网络的模型定义的分布中采样的数据的n-gram计数可以导致对n-gram的更好估计,这在训练期间可能从未见过:单词被神经网络学会相关的其他单词替换。虽然使用原始稀疏训练数据的标准n-gram模型无法了解这种关系,但我们已经在[1]中展示了如何将RNN语言模型获得的一些改进结合到仅使用标准n-gram语言模型的系统中:通过从RNN分布生成大量额外的训练数据。

本文的目的是展示当前的RNN语言模型在多大程度上适合在普通LVCSR系统中大量应用。我们将表明,先前在较小设置上进行的实验[10],[1]的有希望的结果推广到我们的最先进的会议识别器,并且实际上也可以应用于任何其他ASR系统

图1:基于类的递归神经网络的体系结构。

付出了很多努力。虽然RNN模型有效地补充了标准n-gram,但它们也可以有效地使用,即使在速度或内存消耗成为问题的系统中。

在下文中,我们简要介绍了用于语言建模的基于类的RNN体系结构。下面是关于使用的语言模型的系统描述和细节。最后,我们详细介绍了我们的实验,并总结了我们的发现。

基于类的RNN语言模型

RNN语言模型在给定前一个词的情况下,作为下一个词的预测模型。如同在n-gram模型中一样,给定单词序列的联合概率被分解成所有单词wi的概率估计的乘积,其条件是它们的历史hi = w1w2...wi-1:

(1)

图1显示了使用的RNN架构。前一个字wi-1与处理前一个字得到的状态向量si-1中编码的信息一起,使用1/n编码被馈送到网络的输入端。通过传播输入层,我们获得了更新的状态向量si,因此我们可以写:

(2)

通常,预测单词的后验概率是通过使用输出层上的softmax激活函数来估计的,该函数有词汇表的大小。任何给定wi的后验概率可以立即从相应的输出中读取。虽然通常只需要特定wi的后验概率,但由于softmax,必须计算整个分布。通过假设单词可以被映射到类,我们可以将用于估计类的后验概率的部分添加到输出层,从而将预测单词的概率估计为两个独立概率分布的乘积一个在类上,另一个在类内的单词上:

(3)

这导致在训练和测试中的加速,因为只需要计算类别上的分布,然后计算属于预测单词的类别ci的单词上的分布[11]。

安装程序

3.1 系统描述

我们最先进的基线语音识别系统使用来自AMIDA Rich script 2009系统的声学和语言模型[9]。使用标准扬声器自适应技术(VTLN和每扬声器CMLLR)、fMPE MPE训练的声学模型和具有CVN/CMN和HLDA的NN瓶颈特征[4]。两个互补分支(一个基于PLP,另一个基于后验特征)的输出用于交叉调整系统。在这两个分支中,使用2-gram语言模型生成格,随后扩展到4-gram顺序。所估计的自适应变换被用在格重采样阶段,其格最终用作RNN重采样的输入,如在实验的后面所执行的。

Corpus

Words

RT09

RT11

RNN

Web data

931M

radic;

Hub4

152M

radic;

33M

Fisher 1/2

2.1M

radic;

radic;

radic;

Swbd/CHE

3.4M

radic;

radic;

radic;

Meetings

2.1M

radic;

radic;

radic;

总数

1.1G

1.1G

60M

26.5M

表LVCSR系统中使用的语言模型

3.2 语言模型

在表1中,我们展示了用于训练基线语言模型的语料库。RT09和RT11是使用改进的Kneser-Ney平滑的4-gram模型,并且共享相同的50k单词词汇。RNN是一个基于类的递归网络模型,通过时间反向传播的13次迭代进行在线训练(BPTT[3]),学习率为0.1.它使用了500个隐藏的神经元,1000个类别和完整的词汇(没有截断,65k个单词)。仅使用大小适中的2650万字子集,一次迭代在单个CPU上大约需要三天时间。rt06seval数据集(3万字)作为模型训练和组合的验证数据。在我们的实验中,我们报告了WER在NIST rt05seval和rt07seval集上的语音识别结果。

实验

在我们的第一个实验中,我们保留了现有的LVCSR设置,只是用另外使用人工RNN采样数据的模型替换了旧的n-gram模型。因此,该系统不需要RNN语言模型。

4.1添加RNN生成的数据

Model

PPL

Data

#n-grams

RT11

82.5

see Tabale 1

14.4M

VA

81.7

300M words from RNN

35.5M

RT11 VA

76.6

interpolated RT11 VA

46.5M

RT09

72.2

see Tabale 1

51.2M

RT09 VA

69.2

interpolated RT09 VA

78.6M

表2:插值语言模型困惑(4-克)

我们从RNN语言模型中额外抽取了300万个单词,并利用这些数据建立了改进的n-gram语言模型。表2按困惑度降序(PPL)列出了所有n-gram模型组合的概况。可以看出,在RNN数据(VA)上训练的LM的性能已经与RT11模型相当。两种模型似乎仍具有互补性:RT11 VA模型是RT11和VA模型的同等权重混合物,显示PPL下降。它的模型大小几乎与使用更多数据的RT09模型相当。当RNN数据与RT09模型(RT09 VA)结合使用时,PPL仅略微下降,而n-gram(78.6m)数量的增长是巨大的。

如表3所示,通过使用采样RNN数据用改进的n-gram模型代替原来的n-gram模型,我们可以保持原来的LVCSR设置,但仍能实现一些改进。在较小的RT11模型的情况下,RNN数据采样减少了WER,但是对于已经使用大量训练数据的RT09模型不起作用。RT09 VA模型没有显示出优于RT09模型的改进,这就是为什么我们根本没有在下面的实验中使用它。

Test set

RT11

RT11 VA

RT09

RT09 VA

rt07seval

22.2

21.5

20.3

20.4

rt05seval

19.0

18.5

17.7

17.7

表3:由于使用RNN采样数据导致的WER减少量

4.2 RNN救援

通过运行RNN救援阶段,获得了进一步的改进。在n-best列表重新搜索中,RNN模型重新估计了每个n-best假设的对数似然得分:

(4)

其中n是单词的数量,wp是单词插入损失,asci是单词wi的听觉得分.在历史w1中...wi-1和lms是用于生成输入格的语言模型尺度。Px是标准4-gram和RNN模型的组合概率估计,通过线性插值获得:

(5)

rt07seval - 2.25 hours - 4527 utterances

n-gram model

baseline

RNN

Adapt

RT09

20.3

19.6

19.4

RT11 VA

21.5

20.5

20.2

RT11

22.2

20.7

20.4

rt05seval - 2.00 hours - 3130 utterances

n-gram model

baseline

RNN

Adapt

RT09

17.7

16.9

16.6

RT11 VA

18.5

17.4

17.1

RT11

19.0

17.4

17.2

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405757],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。