具有注意力模型的深度神经网络用于场景文本识别外文翻译资料

 2022-08-04 15:49:45

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


具有注意力模型的深度神经网络用于场景文本识别

1引言

在过去的几十年中,文本识别吸引了许多研究人员的注意力。尽管已进行了许多工作,但仍有许多问题尚未解决。在这项工作中,我们专注于场景文本识别,其中文本在字体、比例、纹理和照明条件方面具有广泛的变化。由于文本是场景图像中的重要元素,因此解决文本识别问题可能会在各种应用程序中产生重大影响。特别地,随着移动设备的快速发展,自然场景中捕获的图像数量正在迅速增长。启用准确的场景文本识别将促进新的移动应用程序的开发,例如实时语言翻译。本文解决了野外文本识别中的上述挑战,并提出了一种具有注意力模型的深度神经网络(DNN)来识别场景文本。

通常,文本识别方法遵循自下而上的方案,该方案由三个阶段组成。在第一阶段,通过分割图像中的字符区域来分别提取字符。然后,识别出每个提取的字符。之后,将这些识别出的字符通过分组算法分组为一个完整的文本。但是,分组的准确性很大程度上取决于用于分组算法的技术以及字符级检测和识别的性能。这些问题已成为场景文本识别的瓶颈。

在过去的几年中,对DNN的研究显示出了显着的进步,并且DNN在各种各样的任务中都取得了卓越的性能,特别是使用卷积神经网络(CNN)进行对象检测和识别。但是,场景文本由一系列字符组成,应将其作为序列数据进行处理。与处理单个标签的常规检测和识别任务不同,处理序列数据的模型要求能够按顺序预测多个标签。在这种情况下,CNN无法直接应用于场景数据之类的序列数据。已经做出了努力,以使用CNN检测和识别单个字符。但是,这些先前的尝试仅以独立的方式关心字符,而忽略了字符之间的关系。最近,递归神经网络(RNN)已应用于序列数据识别的广泛应用。但是,与标准序列识别问题不同,文本中的字符数是不确定的,并且常规RNN无法直接识别文本。Shi等人提出了一种将RNN与连接主义时间分类(CTC)结合的方法,可以将RNN的固定长度输出转换为可变长度的文本。最近,在人类视觉系统的启发下,注意力模型被用于RNN的传播,并大大提高了机器翻译和图像字幕的准确性。该模型可以从输入数据中获取有用的特征,并且还可以提高提取的特征的表示能力。此外,具有注意力模型的RNN可以有效解决序列数据长度可变引起的问题。

受序列模型最近发展的鼓舞(该模型使用带有注意模型的DNN),我们研究了一种DNN模型,该模型可以通过端到端可训练网络识别场景文本。提议的DNN模型被称为深度注意神经网络(DANN),因为它是CNN,RNN和注意模型的组合(图 1)。CNN用作将输入图像编码为特征序列的编码器。注意力模型用于过滤冗余信息并从特征序列中提取特征向量。最终,使用长短期记忆(LSTM)网络将特征向量解码为文本。我们在以下方面总结我们的贡献:

  1. 我们引入具有注意力模型的DNN进行场景文本识别。编码器,解码器和注意力模型通过标准的反向传播方法进行联合训练。在我们的框架中,可以使用带有单词级注释而不是字符级注释的图像来训练网络。
  2. 我们将注意力模型集成到场景文本识别中。它不仅解决了场景文本长度不确定的问题,而且提高了场景文本识别的准确性。
  3. 在我们的框架中,我们切断了CNN的完全连接层并删除了分组处理,因此DANN模型仅包含650万个参数。到目前为止,DNN模型还包含最少数量的用于场景文本识别的参数。
  4. 我们在四个基准上以最新性能对DANN模型的意义进行了定量验证:IIIT5K,SVT,ICDAR2003和ICDAR 2013。

本文的其余部分的结构如下。第2节简要介绍了相关作品。第3节详细说明了DANN模型。实验结果和比较结果在本节中显示。在第5节中,将提出结论性意见和未来研究的潜在方向。

图1

DANN模型的框架包括三个部分:(i)特征提取,它使用CNN作为编码器将输入图像编码为特征序列;(ii)特征关注,它从具有关注模型的特征序列中提取特征向量;(iii)序列识别,它使用LSTM网络作为解码器将特征向量解码为文本

2相关工作

与印刷的字符和笔迹不同,自然图像中的文本在字体,比例、纹理和照明条件方面有很大的变化。因此,应使用更健壮的模型来解决场景文本识别问题。传统的场景文本识别方法包括三个阶段。首先,检测场景文本图像上的字符区域;然后,通过字符识别算法识别这些字符。最后,通过分组算法将所有识别的字符分组为文本。

字符检测方法基于连接的组件(CC)或滑动窗口。CC方法通常基于边缘检测,字符能量计算或极值区域(ER)检测来检测字符。这些检测器中有关最终分割的决定是基于局部特征在较低级别上完成的。滑动窗口方法被公式化为滑动窗口中图像的检测问题。Wang等人使用CNN来识别候选字符行,并在候选字符行上利用滑动窗口中的单词级分段功能。可以将字符识别问题表述为字符的分类问题。传统方法使用手工设计的低级特征描述符,例如HOG、SIFT来提取分割图像区域的特征。然后应用分类器对这些特征进行分类。Gordo并未使用低级特征来表示分割的图像区域,而是开发了基于SIFT的中级特征描述符。姚等人还提出了一种针对分割图像的学习型多尺度表示。随着DNN的发展,对于各种各样的问题,CNN提取的特征似乎比手工设计的特征具有更大的优势。[ [6][7][22][23] ]的作品都使用CNN作为识别字符的分类器。识别完所有字符后,将应用分组算法将这些字符分组为文本。Alsharif和Pineau使用带有固定词典的隐马尔可夫模型(HMM)来预测最终识别的文本。然而,不正确的独立性假设和较差的辨别能力是HMM的关键缺陷。

尽管这些方法在场景文本识别方面表现良好,但仍然存在两个缺点。首先,训练一个强大的字符检测器和分类器以进行准确的字符级检测和识别是非常困难的。此外,字符检测器,分类器和分组算法是分开训练的,累积的错误将直接传播到最终结果。对于上述缺点,Jaderberg等人。[ [24] ]提出了一个端到端的可训练框架来识别基于CNN的场景文本,该场景将词典中的所有单词都归为一类。该方法不需要检测和识别场景文本图像中的字符,并且具有出色的性能。但是,它无法识别词典中没有的文本。苏鲁提出了一种RNN,它可以识别场景文本图像而无需对输入图像进行字符分割。但是,RNN的输入是HOG功能,无法有效表示文本图像。对于[ [18] ]中的问题,Shi等人。[ [10] ]应用CNN提取场景文本图像的深层特征,并且他们的模型在场景文本识别方面表现良好。在[ [10] [18] ]中,他们都使用CTC将RNN的分类结果分组为文本。但是,CTC包含许多可训练的参数,并且会在训练过程中将其自身的错误传播到DNN。

最近,具有注意力模型的DNN的性能已经超过了一般的DNN,并且在机器翻译和图像标题社区方面取得了显着改善。在[ [25]],通常有两类用于特征选择的注意力模型:硬注意力和软注意力。注意力集中模型学习选择一系列离散的瞥见位置,并且只能通过强化学习方法进行训练。在这项工作中,我们选择一个软注意力模型,该模型可以通过标准的反向传播进行端到端的训练。软注意力模型的一个特点是,它可以使用弱标签直接加入序列数据中的有用特征。因此,可以通过注意力模型使用单词级标签而不是字符级标签来选择字符区域。此外,软注意力模型的这一特征可以过滤掉输入数据的冗余特征。因此具有注意力模型的RNN可以参与字符的有用功能,并直接输出识别的文本,而不是一组杂乱无章的字符。与传统方法相比,注意力模型可以避免字符检测模型引起的错误。我们的模型受此特性的启发,无需分组算法即可直接获得目标文本。在 [[26] [27] ],他们还利用RNN注意力模型来识别场景文本或手写文本。但是,它们都通过完全连接的层对输入图像进行编码,该层包含大量可训练的参数。我们的模型仅使用CNN,而没有完全连接的层来对输入图像进行编码。因此,与这两种方法相比,我们的模型具有较少的参数和较低的复杂度。

3 DNN与注意力模型

如图1所示 ,场景文本识别的问题是由特征提取,特征关注和序列识别形成的。为了使问题更清楚,我们将标记描述如下。在特征提取阶段,表示场景文本图像,其中包含长度不确定的文本。参数化为的编码器表示使用CNN,而没有完全连接的层。表示由CNN编码的特征序列,长度L表示为,其中对应于特征序列的第i列,d为特征序列的通道大小。在功能关注阶段,T代表LSTM网络的长度。表示注意力模型的第t步参数,其中和。是注意力模型获得的特征向量,也是第t个LSTM单位的输入。在序列识别阶段,参数化为代表LSTM网络。代表第t个LSTM单位的输出,它也是文本的第t个字符。每个阶段的细节将在下面讨论。

3.1特征提取

通过将CNN嵌入到固定的特征向量中,CNN已显示出产生丰富的输入图像表示的良好能力。使用CNN作为编码器提取图像特征是很自然的。然而,场景图像中文本的长度是不确定的,将具有不确定长度的文本的图像编码成固定的特征向量是不合

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[263827],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。