英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
附录A 外文译文
大规模交通标志检测与识别的深度学习
多曼·塔伯尼克和丹尼杰尔·斯科卡
卢布尔雅那大学计算机与信息科学学院,Vecna pot 113,1000 Ljubljanaˇ
{多门·塔伯尼克,丹妮杰尔·斯科卡}@星期五大学-lj.si公司
摘要-交通标志的自动检测与识别在交通标志库存管理中起着至关重要的作用。它提供了准确和及时的方法来管理交通标志库存,只需最少的人力。在计算机视觉领域中,交通标志的识别与检测是一个备受关注的问题。现有的绝大多数方法在高级驾驶辅助和自主系统所需的交通标志上表现良好。然而,这代表了相对较少的所有交通标志(几百个类别中约有50个类别)和剩余的一组交通标志的性能,这是消除交通标志库存管理中的人工劳动所必需的,仍然是一个悬而未决的问题。本文提出了一种适用于交通标志库存管理自动化的大量交通标志类别的检测与识别方法。我们采用卷积神经网络(CNN)的方法,即掩模R-CNN,通过端到端的自动学习来解决检测和识别的整个流程。我们提出了一些改进措施,并对交通标志的检测进行了评估,从而提高了整体性能。该方法应用于200个交通标志类别的检测。报告了先前工作中尚未考虑的极具挑战性的交通标志类别的结果。本文综合分析了深度学习方法对类别内外观变化较大的交通标志的检测,并给出了3%以下的错误率,为交通标志库存管理的实际应用提供了充分的依据。
索引项-深入学习,交通标志检测与识别,交通标志数据集,掩模R-CNN,交通标志库存管理。
一 引言
交通标志清单管理是保证交通流安全和效率的重要任务[1],[2]。大多数情况,此任务是手动执行的。交通标志使用车载摄像机拍摄,人工定位和识别由人工操作员离线执行,以检查与现有数据库的一致性。然而,当应用于数千公里的道路上时,这样的手工工作可能会非常耗时。自动化这项任务将大大减少手动工作的数量,并通过更快地检测损坏或丢失的交通标志来提高安全性[3]。
实现这项任务自动化的关键一步是用自动检测取代人工定位和识别交通标志。在计算机视觉领域,交通标志识别问题已经得到了相当的重视[4]、[5]、[6],并且具有很好的检测能力
图1:DFG交通标志数据集由200个类别组成,其中包括具有高类别内外观变化的大量交通标志
识别算法已经被提出。但这些解决方案仅针对少数类别设计,主要是针对与高级驾驶员辅助系统(ADAS)和自动驾驶车辆相关的交通标志[7]和[8]。
大量交通标志类别的检测与识别仍然是一个悬而未决的问题。以前的各种基准已经解决了交通标志识别和检测任务[9]、[10]、[11]、[12]、[13]。然而,其中的一些只关注交通标志识别(TSR),而忽略了更为复杂的交通标志检测(TSD)问题,即需要找到准确的交通标志位置。其他的基准,确实解决了TSD大多只涵盖交通标志类别的一个子集,其中最重要的往往是ADAS和自动车辆应用。此类基准中出现的大多数类别具有明显的外观,类别间方差较低,并且可以使用手工制作的检测器和分类器进行检测。这些例子包括圆形强制标志或三角形禁止标志。然而,许多未包含在现有基准中的其他交通标志类别可能更难检测,因为它们的外观变化很大。这些类别的实例可能具有不同的实际大小、纵横比、颜色,并且可能包含不同的文本和符号(例如,箭头),这些文本和符号在同一类的实例之间显著不同。这通常导致很大程度的类别内(即类别内)外观变化,同时由于来自不同类别的对象的相似外观而导致较低程度的类别间(即类别间)变化。
使用手工制作的功能和分类器修改现有方法以处理此类类别将是一种选择;然而,这将是一项耗时的任务,特别是考虑到许多交通标志外观在国家之间不一致时。一个更明智的方法是使用基于实例的特征学习。这可以很容易地适应和捕捉大量交通标志外观的高度可变性。近年来,深度学习在一般目标的检测和识别方面取得了很好的效果。以前的研究已经在一定程度上采用了深入学习的方法来进行交通标志的检测和识别[6];但是,他们的评估只集中在交通标志类别的一个高度有限的子集上[13]。阻碍深入学习应用于大量交通标志类别的主要限制之一是缺乏包含数百个不同类别和足够数量的实例的广泛数据集。这个问题在深度学习中尤为重要,因为模型有数以千万计的可学习参数,需要大量样本来防止过度拟合。
本文针对道路交通标志库存管理中大量交通标志类别的学习与检测问题。作为我们的主要贡献,我们提出了一个基于深度学习的系统来训练大量的交通标志类别使用卷积神经网络。我们的系统基于最先进的探测器掩模RCNN[14],在目标检测领域显示出极高的准确性和速度。同样的网络结构不仅用于TSR,而且用于使用区域建议网络的精确定位,从而产生高效的端到端学习。与具有手工制作特征的传统方法相比,卷积方法应用于广泛的类别集合,其中单个交通标志实例不仅受照明条件、比例、视角、模糊和遮挡的影响,但也有显著的类别内外观变异以及低类别间变异。此外,我们还提出了对交通标志领域至关重要的R-CNN屏蔽改进方案。本文提出了一种改进的方法来提高召回率,特别是对小型交通标志的召回率,并介绍了一种新的适用于交通标志类别的增强技术。
作为我们的第二个贡献,我们提出了一个新的具有挑战性的数据集,其中200个交通标志类别分布在13000个交通标志实例和7000个高分辨率图像上。该数据集代表了复杂交通标志的一个新基准,具有大量具有高类别内外观可变性的类别。此外,数据集包含足够的实例,以确保对深层特征的适当学习。我们通过提供200个交通标志类别的注释来实现这一点,每个类别至少有20个实例(见图1)。此外,我们的定性分析为深入学习是否适合检测大量交通标志类别提供了重要的研究。
论文的其余部分安排如下。第二节介绍了相关的工作概况,第三节介绍了所采用的方法,第五节介绍了实验结果,第六节对定性分析进行了讨论。
二 相关工作
有大量关于TSR和TSD,以及一些评论文章[11],[15]。一般来说,很难决定哪种方法能产生更好的总体效果,主要原因是缺乏一个标准的公共基准数据集,该数据集将包含各种交通标志类别的广泛集合,正如最近几项研究所强调的那样[15],[16]。大多数作者在交通标志类别数量相对有限的众多公共数据集中评估他们的方法:
bull;德国交通标志检测基准(GTSDB)[10]:3个超级类别,主要用于检测。
bull;德国交通标志识别基准(GTSRB)[9]:43类,仅用于识别。
bull;比利时交通标志(BTS)数据集[17]:62类,用于检测和识别。
bull;绘制和评估交通基础设施状况(MASTEF)[18]:9个原始类别,扩展到31个类别[19],获得用于克罗地亚道路维护评估服务。
bull;瑞典交通标志数据集(STD)[20]:10类,用于检测。
bull;智能和安全汽车实验室(LISA)数据集[11]:49类交通标志,在美国道路上获得。
bull;清华-腾讯100K数据集[13]:45个类别,大型数据集,包含10000个图像,其中至少包含一个交通标志和90000个背景图像。
为了丰富所考虑的交通标志集,一些方法从多个数据集中采样图像来执行评估[21]、[22]。另一方面,大量的作者使用他们自己的私有数据集【4】、【23】、【24】、【25】。据我们所知,私人数据集[24]中考虑了最大的一组类别,将131类非文本交通标志与英国道路区分开来。
尽管有大量的交通标志数据集,但对大量类别的交通标志检测器进行比较仍然是一个具有挑战性的问题。与主要关注少量超级类别(GTSDB[10])或少量简单交通标志(BTS[17]、MASTIF[18]、STSD[20]、LISA[11])的现有基准相比,我们的综合数据集包含200个交通标志类别,包括大量具有显著类别内可变性的类别。最接近的大型数据集是清华-腾讯的100K数据集;然而,他们的评估仍然只关注45个简单的交通标志。另一方面,我们的数据集能够在交通标志库存管理的背景下对检测器进行全面分析。
TSR和TSD采用了多种方法。传统上手工制作的特征被使用,如方向梯度直方图(HOG)[12]、[24]、[26]、[16]、[5]、[19]、[10]、尺度不变特征变换(SIFT)[5]、局部二值模式(LBP)[16]或积分通道特征[26]。还采用了广泛的机器学习方法,从支持向量机(SVM)[24]、[16]、[27]、逻辑回归[28]和随机森林[16]、[27],到以极端学习机(ELM)形式的人工神经网络[19]。
最近,和整个计算机视觉领域一样,TSR和TSD也受到CNN文艺复兴的影响。一种自动为TSD提取多尺度特征的现代CNN方法已经在文献[29]中得到应用。在TSR中,CNNs被用来自动学习特征表示以及执行最终分类[30]、[31]、[32]、[33]。为了进一步提高识别精度,文[34]将CNN和多层感知器相结合,文[30]、[32]提出了由多个CNN组成的集成分类器。在[35]中应用了一种使用CNN学习特征然后应用ELM作为分类器的方法,而在[36]中使用了由空间变换器层和改进的inception模块组成的深度网络。文献[37]表明,CNN在识别方面的性能优于GTSRB。在[6],[13]的最新工作中,利用CNNs解决了TSR和TSD的组合问题。在后者中,他们使用了一个经过大量修改的OverFeat[38]网络,而在前者中,他们使用了一个完全卷积的网络来获得图像的热图,在热图上使用了一个区域建议算法来进行检测。最后,使用单独的CNN对得到的区域进行分类。
我们提出的基于深度学习的方法不同于以往的相关工作。与传统的手工特征和机器学习方法相比[12],[24],我们提出了端到端学习的全特征学习方法。我们的方法也不同于其他基于深度学习的交通标志检测方法。我们的方法基于Mask R-CNN,使用区域建议网络,而不是像[6]那样使用单独的方法生成区域建议,与[13]相比,我们使用基于VGG16[39]和ResNet-50[40]架构的更深层次的网络。与[6]和[13]相比,我们还采用了在ImageNet上预先训练的网络,这大大减少了对训练样本的需求。此外,我们还实现了一些扩展,从而获得了卓越的性能。
三、 基于掩模R-CNN的交通标志检测
在这一部分中,我们提出了我们的交通标志检测系统使用掩模R-CNN检测器,并进行了一些改进。首先,我们提出了原始的掩模R-CNN检测器,然后我们提出了我们的适应学习交通标志类别,最后,我们提出了我们的数据增强技术。
A、 面罩R-CNN
在这里,我们简要介绍了Mask R-CNN,并让读者参考[14]了解更详细的描述。掩模R-CNN网络[14]是快速R-CNN网络[41]的一个扩展,两者都由两个模块组成。第一个模块是深度完全卷积网络,即所谓的区域建议网络(RPN),它获取输入图像并生成一组矩形对象建议,每个建议都有一个对象得分。第二个模块是基于区域的CNN,称为快速R-CNN,它将提出的区域分类为一组预定义的类别。Fast R-CNN效率很高,因为它在各个提案之间共享复杂的信息。它还执行边界框回归,以进一步细化所建议区域的质量。整个系统是一个单一的统一网络,其中RPN和Fast R-CNN通过共享它们的卷积特性而融合在一起。继最近流行的神经网络术语“注意”机制之后,RPN模块告诉快速RCNN模块在哪里查找。Mask R-CNN然后通过将底层网络体系结构与特征金字塔网络(FPN)相结合来改进该系统[42]。使用FPN,检测器能够提高对小目标的性能,因为FPN在下采样去除小目标中的重要细节之前,从网络的较低层提取特征。下面的网络架构,在快速R-CNN中是VGG16[39],在Mask R-CNN中被一个剩余网络(ResNet)[40]取代。
Faster和Mask R-CNN被训练用于区域建议任务和分类任务。这是通过随机梯度下降来实现的。Mask R-CNN使用端到端学习同时学习两个网络。最初更快的R-CNN实现是通过在两个任务之间交替进行的4步优化过程来实现的。然而,Mask R-CNN的新的端到端学习方案也适用于更快的R-CNN。通常,在两个网络在特定域上进行训练之前,使用ImageNet预训练模型初始化它们。
这两种方法都能在测试阶段实现快速检测和识别。对于每个输入图像,训练模型输出一组对象边界框,其中每个框与类别标签关联,并且在[0,1]。
B、 适应交通标志检测
掩模R-CNN是一种用于一般目标检测和识别的通用方法。为了使其适应TSD的特定领域,我们开发并实现了一些特定领域的改进。
(一)在线硬示例挖掘:我们首先在分类学习模块(Fast R-CNN模块)中加入在线硬示例挖掘(OHEM)。根据Shrivastava等人的工作。[43]引入了OHEM以加快RCNN的速度,我们取代了选择传递给分类学习模块的感兴趣区域(ROI)的方法。通常,每个图像随机选择256个roi,一些作为前景(交通标志),一些作为背景(非交通标志)。在我们的方法中,我们将roi的随机选择替换为基于其分类损失值的选择。根据损失值对区域进行排序,只有损失足够大的区域才传递给分类学习模块。这确保了对网络错误最多的样本(即硬样本)的学习。我们分别对背景和前景对象进行选择,以确保在每个梯度下降步骤中有足够的正样本和负样本。
我们利用现有的分类模块来获取roi的分类损失,将OHEM作为端到端的学习来实现。请注意,代表选择roi的标准的分类损失不是针对RPN生成的所有可能roi计算的,而是仅针对基于其客观得分的顶级roi计算的。我们选取2000个区域进行非最大值抑制(NMS
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[412635],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。