英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
基于深度学习的行人检测
摘要
特征提取,变形处理,匹配处理和分类是行人监测的四个重要组成部分。现有的学习或设计这些组件要么是独立的,要么是顺序的。这些组件之间的联系还没有被彻底探索出来。本文提出,它们应该相互写作,通过合作发挥出最大优势。我们将这四个组件放进深度学习的框架中,并形成一个新的架构。通过在组件之间建立自动化、相互作用的关系, 达到了比目前加州理工基准数据集中最好的行人检测系统还要低百分之九的平均错误命中率。
介绍
行人检测是自动化安全、机器人、智能视频监控的关键技术,它吸引了学界极大的研究兴趣。这项任务的主要挑战来自将行人的衣着、光线、背景、清晰度和咬合度。
为了解决这些挑战,一些独立组件就变得非常重要。首先,应该将行人最重要的特征通过鉴别信息提取出来。比较有名的特征例如 Haar-like、SIFT和HOG,都是在分类中强大的提取设计。其次,变形模型应处理关节的人体部分,如躯干,头部和腿,国家的最先进的变形部分为基础的模型允许人的表达部分约束。第三,匹配处理方法试图去定义匹配域,并且避免当判断行人在窗口中出现的时候使用。最后,分类器决定是否检测候选窗口以帮助定位行人,SVM,提高分类准确率。
虽然这些部件之间是相互依存的,但是它们之间的关系还没有被完全开发。目前,它们是单独或按顺序学习和设计的,并且在合并运输。这些部件之间的联系通常是通过手动参数配置。
如图一所示,本文旨在对这些核心组件简历自动联系。我们希望组件们像有团队精神的队员一样,可以相互协作、紧密联系。例如,学习组件帮助定位,同时,定位组件帮助了解不同部件之间的鉴别特性。本文将这些关键部件的学习制定成一个统一的深学习问题。这个深度模型是专门为了本次任务,因为它可以将这些部件组织成一些不同的层次,并且通过反向传播联合优化它们。
本文主要做了以下三个方面的贡献。
- 联合学习特征提取、零件变形模型、遮挡模型和分类的统一深度模型。随着深度模型,这些组件相互作用,在学习过程中,它允许每个组件以最大限度地提高其强度时,与其他组件合作。
- 我们在深层模型中进行丰富的操作,将变形层的卷积神经网络。有了这个层,各种变形处理方法可以应用到我们的深部模型。
- 通过互动与变形和闭塞处理模型的特点是从像素学习。这种互动有助于学习更多的鉴别性特征。
相关工作
经证明,深度模型比浅层模型在处理复杂任务时有更好的潜在兼容性。它们在计算机视觉领域取得了惊人的进展,行人检测的深度模型针对特征学习、语境信息的学习、遮挡处理。
许多功能用于行人检测,例如 Haar-like、SIFT和HOG,用以捕捉行人的总体形态,第一级颜色特征比如颜色直方图,第二级颜色特征比如颜色的自相似性(CSS),以及共生的特征都用于行人监测。比如LBP里面使用的纹理特征。其他特征包括协方差描述符、深度、分割结果、3D几何图形以及其他的组合。所有以上提及的功能都是人工设计。最近,研究人员已经意识到从训练数据中学习特征的好处。与HOG相似,他们用本地最大池或平均池是强大的小局部错位。然而,这些方法都没有学习到行人身体的变化特征。该方法在学习功能和部分为基础的模型顺序,但不联合。
由于行人有非刚性变形,处理变形的能力可以提高检测性能。可变形组件模型被用于处理平移运动。为了处理更多复杂的关节、尺寸变化,将用到循环部分,部分外观和关节类型的混合物建模,这些方法也是由手动设计。
为了处理偶然情况,许多方法都被用于可见性。其中一些使用块或零件的检测分数,作为估计能见度的输入值。也使用了一些其他方法,如分割结果和深度。然而,所有这些方法分别从特征提取和部分模型学习闭塞建模。
广泛使用的分类方法包括各种升压分类,比如线性SVM、直方图相交核SVM、潜在SVM、多重核心SVM、结构SVM,以及概率模型。在这些方法中,分类器适应于训练数据,但是特征都是人工设计的。如果有用的信息在特征提取中丢失,它将不能在分类时被恢复。理想情况下,分类器应引导特征学习。
总之,以前的工作单独或顺序处理组件。本文以这些组件的全局视图,是一个重要的步骤,他们共同组成的行人检测的步骤。
方法
-
- 应用的深度模型概述
我们所用的指定深度模型如图2所示,在这个模型中:
- 从第一卷积层获得过滤数据映射。这一层的三通道输入图像数据存储的9times;9times;3滤波器和输出64地图。| tanh(x)|,即激活函数tanh函数和绝对值整流,用于每个滤波器响应X。
- 特征映射得到的平均吸收64筛选数据地图使用4times;4棚车过滤器与一个4times;4抽样的步骤。
- 从第二卷积层获得部分检测图。这层卷积特征图不同尺寸和输出20部分20部分过滤器检测图。详情载于第3.3节
- 部分分数是从20部分检测图使用变形处理层。该层输出20部分分数。详情载于第3.4节。
- 20个部分的可见性推理用于估计标签y,也就是说,是否一个给定的窗口包围行人或不。详情载于第3.5节。
在训练阶段,所有的参数通过反向传播(BP)进行了优化。
-
- 输入数据准备
将检测窗口提取到高度为84和宽度为28的图像中,行人高度为60,宽度为20。输入图像数据包含三个通道。
(1)第一频道是一个84times;28 Y通道的图像经过图像转换为YUV颜色空间。
(2)三通道42times;14幅图像在YUV颜色空间连接成大小84times;28第二通道零填充。
(3)四42 14times;边缘图连接成大小84times;28第三通道。在YUV颜色空间从三通道的图像得到的边缘图三。使用Sobel边缘检测器计算的水平和垂直边缘的幅度。通过选择从第一个三边图的最大幅度,得到第四边图。
在这种方式中,信息在不同的分辨率和信息价值的原始边缘像素作为第一层的convlutional输入提取特征。第一个卷积层及其以下平均汇聚层使用标准的美国有线电视新闻网设置。
我们的经验发现,它是更好地安排图像和边缘映射到三个级联的渠道,而不是八个独立的渠道。为了处理光照变化,将每个通道中的数据预处理为零均值和单位方差。
-
- 生成部分检测图
通常,卷积层的滤波器大小是固定的。由于行人的部分有不同的大小,我们设计的过滤器在第二个卷积层的大小可变。如图3a所示,我们设计了不同尺寸的三个层。第一层有六个小部分,第二层有七个中等大小的部分,以及第三层的七个大的部分。上部的部分由下部的部分组成。在顶部的部分也是可能的闭塞状态。灰色表示遮挡。另外两个层次是身体部分。在图片中,头和肩部出现了两次,因为这个身体部分自己可以产生阻塞状态。图3b展示了一部分我们所用的深度模型的滤波器。他们是可视化的激活最大化方法。这幅图展示了第二层头和肩部和从第三层的输入值中提取的不同视觉视觉线索。头和肩部的滤波器比图1中HOG的头和肩部滤波器包括更多细节信息。图3b中的两条腿滤波器比图1中HOG方法更具有可视意义。
-
- 变形层
为了学习不同部分的变形约束规则,我们准备为卷积神经网络处理变形层。
变形层以P部分检测图作为输入和输出P部分的分数,。..,SP,P = 20图2。变形层待检测图分别产生PTH部分得分从SP PTH部分检测图,表示为mp。一个二维的总结图,用BP,是通过总结部分检测地图mp和变形图获得如下公式:
DN,P表示第n个变形图的PTH部分,C n,P表示Dn,P和n的权重表示变形图的数量。从BP在公式(1)得出:
其中B(x,y)表示(x,y)TH元素的BP。检测到的部分位置可以从汇总图中推断出来如下:
在训练阶段,只有在位置的值(x,y)P的BP用于学习的变形参数。
CN,P和DN,P(1)是设计不同变形模型的关键。anddn CN,P,P可以看作是学习的参数。下面给出三个例子。(此处不作翻译)
-
- 可视性推理与分类
公式2为3.4节的变形层提供了部分分数s = {s1, . . . , sP },将用于可视化的联系和分类。
图5为模型展示了图2的可视化原因和分类,各自表示jth部分在l层作为s和h,给出的s,BP模型的推导如下:
当是S型函数,hl和hl 1是W模型时,
WLlowast;,j是第j列ofwl,WCLs作为线性分类器的隐藏的单位tilde;H3和tilde;Y是估计的检测标签。相邻级别的隐藏变量连接。WLlowast;,J代表tilde;HL和tilde;HL 1之间的关系,一个部分可以有多个父母和多个孩子。能见度一部分与同一水平的其他部分的知名度,通过共享的父母。GLJ,CLJ,WL,WCLs,和B参数学习。
本文中的深度模型和方法的区别如下:
- 通过在第3级的[34]部分,在1级和第2级的部分传播信息的分类。但是第三层的不完善的部分分数可能扰乱第1和2层的信息。
- 本文在第2和3层包括额外隐藏节点。这些节点为第1和2层提供一系列帮助,直接传播信息的分类,而不被其他部分干扰。这些其他隐藏节点不使用检测分数,并有。它们在图5中被标记为白色圆圈,隐藏节点被标记为灰色圆圈。
- [34]中的方法只从一部分分数中学习了可视化关系。HOG特征和参数都是为了变形模型而固定进[34]。在本文中,特征、变形模型,和可视化关系共同学习。为了学习这两个卷积层中的参数以及图2中的变形层,通过s反馈错误。S的变化梯度如下:
表示阿达玛积为:
为了培养这种深层结构,我们做了一种多层培养策略。我们从卷积神经网络第1层开始使用监视培养。由于Gabor滤波器类似于人类视觉系统,他们使用初始化第一层卷积神经网络。我们在每一级多增加了一层,在上一阶段训练的层用于初始化,然后在当前阶段的所有层用BP联合优化。
实验结果
所用的框架是加州理工大学的评估数据集,以及ETH数据集。为了节省预算,在训练和测试阶段,使用HOG CSS和线性SVM检测器用于修剪候选检测窗口。约60000训练样本,不修剪的检测器用于训练深模型。在测试阶段,我们的深度模型需要的执行时间比HOG CSS SVM检测器模型低10%。在深度学习模型中,学习速率固定为0.025,批量大小为60。
Doll′ar et al.在线提供的标签和赋值用于特定标准的评估。日志的平均命中率是用来衡量检测器的性能,并通过平均命中率在九FPPI率是均匀分布在日志空间的10-2到10 0范围。在试验中,我们评估了可用的数据集的子集的表现。这个子集,是数据集中最著名的部分,包括超过49像素的行人,以及超过.35%的遮挡部分。
-
- 加州理工学院测试数据集结果
为了评估加州理工学院的测试数据集,我们用它来训练我们的模型。最近的最佳表现方法[ 8,37 ]测试,也使用加州理工学院培训作为训练数据。在训练阶段,有约60000负样本和加州理工学院列车的4000个正样本数据集。
图6展示了加州理工学院数据集的整体实验结果。目前表现最好的加州理工测试方法是MultiResC和情境刺激,这二者的错误率都是48%。而我们的方法把错误率降低到了9%。
由于加州理工学院测试是最大的常用数据集,我们研究了不同的设计深模型在此数据集。比较如图7所示。
层设计:一个1层的卷积神经通过将图2中提取的特征直接进给到线性分类器。一个2层的卷积神经网络通过对提取的特征映射与另一个卷积层和另一池层构造。在2层卷积神经网络上增添越多的卷积层和池层并不会提升质量。它们都和第一层都有相同的输入和设置,但没有变形层或能见度估计层。这项实验显示,变形层和可视层的使用都超越了卷积神经网络。
输入通道设计:图7b展示了第3.2节里面介绍的输入频道的对实验结果的调查。当输入数据只有第一级Y通道图片,平均错误率达到了47%。第二通道纳入了一个更低颜色的图片,将错误率降低了5%。包括地图边缘的第三通道继续将错误率降低了3%。
共同学习:图7c展示了调查不同级别的共同学习的实验结果。UDN的第一层卷积层和池层与特征提取步骤相符合。因此,这两层的输出可以被其他特征所取代,是手动设置或者提前学习的。
- latsvm-v2 [ 17 ],以63%的命中率,人工设计的HOG特征,然后学会变形模型。
未考虑可见性推理。
- dn-hog [ 34 ],以53%的命中率,将HOG特征和变形模型,然后学习的可视化模型。
- udn-hog,以50%的命中率,将HOG特征,然后共同学习与UDN变形和知名度层。dn-hog和udn-hog的区别在于是否变形和可视模型共同学习。
- udn-hogcss,以47%的命中率,将猪 CSS的功能,共同学习与UDN变形和能见度层。与udn-hog,额外的CSS特征降低了3%的命中率。
- UDN cnnfeat,以44%的命中率,第一次学习使用cnn-1layer图7中的特征提取层(A)和修正这些层,然后共同学习的变形和能见度。
-
在这种情况下,特征提取是没有共同学习的变形和能见度。与udn-ho
全文共6024字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[143034],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。
您可能感兴趣的文章
- 为非政府组织OG慈善基金会设计的基于社区的救灾管理系统外文翻译资料
- 基于UML建模的医疗系统电子健康服务软件外文翻译资料
- 开发一种具有增强现实功能的智能手机应用程序, 以支持护理学生对心衰的虚拟学习外文翻译资料
- 在开发 Web 应用程序中应用 Vue.JS 框架外文翻译资料
- 基于MES系统的生产车间信息管理研究外文翻译资料
- 基于Vue.js和MySQL的电子商务平台的设计与实现外文翻译资料
- 详细的Spring配置和SpringBoot外文翻译资料
- 基于NS2的DSR和AODV协议的性能比较研究外文翻译资料
- 不同仿真参数下NS2的TCP吞吐量性能外文翻译资料
- 基于Spring Boot和VUE的车辆管理系统实现外文翻译资料