会议识别中基于递归神经网络的语言建模
我们使用基于递归神经网络(RNN)的语言模型来改进BUT英语会议识别器。 在使用原始语言模型的基准设置上,我们通过n-best列表记录和语言模型自适应将绝对错误率(WER)降低了1%以上。 当在与RNN模型相同的中等大小的数据集上训练n-gram语言模型时,改进会更高,从而产生一个性能与基线相当的系统。 在无监督的RNN模型适应下,观察到了明显的改进。 此外,我们研究了单词his-的影响-尝试使用WER,并展示如何通过缓存通用前缀字符串来加快修复速度。
索引词:自动语音识别,语言建模,递归神经网络,记录,自适应
1.简介
提出的基于神经网络(NN)的语言模型 [12]一直被报道在其他语言建模技术中表现良好。 通过使用基于NN的递归语言模型,可以在一些较小的任务上获得最佳结果[10],[11]。 在RNN中,隐藏层和输入层之间的反馈使隐藏的神经元能够记住先前处理过的单词的历史。 语言建模中的神经网络提供了多种优势。 与常用的n-gram语言模型相反,平滑是以隐式的方式应用的,并且由于将整个词汇表投射到一个小的隐藏层中,因此语义上相似的单词会聚类。 这就解释了为什么从基于NN的模型定义的分布中采样的n-gram数据可以导致对n-gram的更好估计,而这在训练过程中可能从未见过:单词被NN替代的其他单词代替 学会了相关。 尽管标准的n-gram模型无法学习到这种关系使用原始的稀疏训练数据,我们已经在[1]中进行了展示我们如何仅使用标准n-gram语言模型将RNN语言模型获得的某些改进并入系统中:通过从RNN分布中生成大量额外的训练数据。
本文的目的是说明当前的RNN语言模型在多大程度上适合于普通LVCSR系统中的大规模应用。 我们将证明先前在较小的设置[10],[1]上进行的实验的有希望的结果可以推广到我们最先进的会议识别器,并且实际上也可以在任何其他ASR系统中应用。 尽管RNN模型有效地补充了标准n-gram,但即使在速度或内存消耗成问题的系统中,它们也可以有效地使用。
在下文中,我们简要介绍了用于语言建模的基于类的RNN架构。 以下是系统说明和有关所用语言模型的详细信息。 最后,我们详细介绍了我们的实验,并总结了我们的发现。
2.基于类的RNN语言模型
RNN语言模型可作为给定先前单词的下一个单词的预测模型。 像在n元语法模型中一样,给定单词序列的联合概率被分解为所有单词wi的概率估计的乘积,其中wi的历史条件为hi = w1w2 ... wi-1:
使用n-of-encod馈入网络的输入通过处理先前的单词,将其与编码在状态向量si-1中的信息一起进行处理。 通过传播输入层,我们获得了更新的状态向量si,以便我们可以编写:
通常,通过使用输出层上的softmax激活函数来估计预测单词的后验概率,该函数具有词汇表的大小。 任何给定wi的后验概率可以立即从相应的输出中读取。 尽管通常只需要特定wi的后验概率,但整个分布必须由于softmax而被计算。 通过假设可以将单词映射到类,我们可以添加一个部分来估计类的后验概率到输出层,从而将预测单词的概率估计为两个独立概率分布的乘积-一个 在班级上,另一个在班级中的单词上:
这将导致训练和测试速度的提高,因为只需要计算类的分布,然后计算属于预测词的ci类的词的分布。
3.设定
3.1 系统描述
我们最先进的基准语音识别系统使用AMIDA Rich Transcription 2009系统[9]的声学和语言模型。 使用标准的说话人自适应技术(VTLN和每个说话者CMLLR),fMPE MPE训练的声音模型以及具有CVN / CMN和HLDA的NN瓶颈特性[4]。 两个互补分支的输出(一个基于PLP,另一个基于后部特征)用于交叉适应系统。 在两个分支中,均使用2克语言模型生成晶格,然后将其扩展为4克顺序。 估计的自适应变换用于格点记录阶段,其格点最终用作RNN记录的输入,如稍后在实验中执行的那样。
Corpus |
Words |
RT09 |
RT11 |
RNN |
Web data |
931M |
! |
– |
– |
Hub4 |
152M |
! |
33M |
– |
Fisher 1/2 |
21M |
! |
! |
! |
Swbd/CHE |
3.4M |
! |
! |
! |
Meetings |
2.1M |
! |
! |
! |
Total |
1.1G |
1.1G |
60M |
26.5M |
表1:LVCSR系统中使用的语言模型
3.2 语言模型
在表1中,我们显示了用于训练基准语言模型的corpora2。 RT09和RT11是使用改进的Kneser-Ney平滑处理的4克模型,并且共享相同的50k单词。 RNN是一种基于类的递归网络模型,该模型在线进行了13次迭代的反向传播迭代训练(BPTT,[3]),学习率为0.1。 它使用了500个隐藏的神经元,1000个类和完整的词汇表(不包含截止词,不得超过65k个字)。 仅使用一个中等大小的26.5M字的subset3,一次迭代在单个CPU上花费了大约三天的时间。 rt06seval数据集(3万个字)已投放作为模型训练和组合中的验证数据。 在我们的实验中,我们在NIST rt05seval和rt07seval集上报告了WER中的语音识别结果。
4.实验
在我们的第一个实验中,我们保留了现有的LVCSR设置,只是将模型替换为旧的n-gram模型,该模型还使用了人工RNN采样数据。 因此,在该系统中不需要RNN语言模型。
4.1 添加RNN生成的数据
Model |
PPL |
Data |
#n-grams |
RT11 |
82.5 |
see Table 1 |
14.4M |
VA |
81.7 |
300M words from RNN |
35.5M |
RT11 VA |
76.6 |
interpolated RT11 VA |
46.5M |
RT09 |
72.2 |
see Table 1 |
51.2M |
RT09 VA |
69.2 |
interpolated RT09 VA |
78.6M |
表2:内插语言模型的困惑(4克)
我们从RNN lan-量表模型,并使用这些数据来创建改进的n-gram语言模型。在表2中,我们以困惑度的降序(PPL)显示了所有n-gram模型组合的概述。可以看出,在RNN数据(VA)上训练的LM的性能已经可以与RT11模型相提并论。两种模型似乎仍是互补的:RT11 VA模型是RT11和VA模型的均等加权混合,显示PPL降低。它的模型大小几乎可以与使用更多数据的RT09模型相媲美。当将RNN数据与RT09模型(RT09 VA)结合使用时,PPL仅略有下降,而n克数(78.6M)的增长却是巨大的。
如表3所示,通过使用采样的RNN数据仅用改进的n-gram模型替换原始n-gram模型,我们可以保留原始LVCSR的设置,但仍需要一些改进。在较小的RT11模型的情况下,RNN数据采样降低了WER,但不适用于已经使用了大量训练数据的RT09模型。 RT09 VA模型与RT09模型相比没有任何改进,这就是为什么我们在以下实验中完全不使用它的原因。
Test set |
RT11 |
RT11 VA |
RT09 |
RT09 VA |
rt07seval rt05seval |
22.2 19.0 |
21.5 18.5 |
20.3 17.7 |
20.4 17.7 |
表3:由于使用RNN采样数据而减少的WER
4.2 RNN记录
通过运行RNN记录阶段可获得进一步的改进。 在n个最佳列表的记录中,RNN模型针对每个n个最佳假设s重新估计了对数似然得分:
其中n是单词数,wp是单词插入罚分,asci是单词wi的声学得分,在历史记录w1 ... wi-1中,lms用于输入晶格生成中的语言模型比例。 Px是标准4克模型和RNN模型的组合概率估计,它是通过线性插值获得的:
rt07seval-2.25小时-4527语音
n-gram model |
baseline |
RNN |
Adapt |
RT09 |
20.3 |
19.6 |
19.4 |
RT11 VA |
21.5 |
20.5 |
20.2 |
RT11 |
22.2 |
20.7 |
20.4 |
rt05seval-2.00小时-3130声
n-gram model |
baseline |
RNN |
Adapt |
RT09 |
17.7 |
16.9 |
16.6 |
RT11 VA |
18.5 |
17.4 |
17.1 |
RT11 |
19.0 |
17.4 |
17.2 |
表4:使用RNN评分和自适应的rt05seval和rt07seval测试集的字错误率(WER)
表4显示了系统中使用的n-gram模型及其通过RNN记录获得的性能。 4克格子(4克)构成了用于提取n个最佳列表的基线。 我们最好的系统(RT09)的改进绝对值是0.7-0.8%,RNN数据采样(RT11 VA)的系统改进了1.0-1.1%,而轻量级的RT11系统则提高了1.6%。
4.3 未扣押
rt07seval - 8 meetings - 19 speakers
WER |
Adaptation |
19.6 |
RNN rescoring, no adaptation |
19.7 |
on entire 1-best 剩余内容已隐藏,支付完成后下载完整资料 资料编号:[405752],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。