视网膜人脸:人脸检测器外文翻译资料

 2023-08-15 11:17:58

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


视网膜人脸:人脸检测器

引言

2019年冠状病毒疾病严重影响了世界。此外,许多公共服务提供者要求客户仅在正确佩戴口罩的情况下才使用该服务。但是,仅有很少的研究基于图像分析来进行口罩检测。在本文中,我们提出了一种视网膜人脸,它是一种高精度的高效率人脸探测器。提出的视网膜人脸斯基阶段探测器,由功能金字塔网络组成,可以融合具有多个特征图的高级语义信息,并通过可视化文本关注模块来集中检测人脸。此外,我们还提出了对所有类别的对象进行算法去除的算法,这些算法在降低可信度和较高交集的情况下会拒绝预测。实验结果表明,RetinaFace Maska可以使最新的公开人脸数据集的状态和基准检测精度分别比基准线高2.3%和1.5%,比基准线高11.0%和5.9%。此外,我们还探讨了使用轻量级神经网络移动网络嵌入或移动设备来实现视网膜面膜的可能性。

关键词:冠状病毒,语境关注,面膜检测,特征金字塔网络

  1. 简介:

世界卫生组织(WHO)的情况报告96 [1]表示,2019年冠状病毒疾病(COVID-19)在全球感染了270万人,造成180,000多例死亡。另外,在过去的[2,3]年中,发生了数种相似的大型严重呼吸系统疾病,如严重的急性呼吸系统综合症(SARS)和中东呼吸综合症(MERS)。[4]报道说,SPAR的繁殖数较高,SAR19。因此,越来越多的人关心他们的健康,而公共卫生被视为政府的重中之重[5]。幸运的是,Leungetal [6]表明,外科口罩可以减少冠状病毒的传播。在一时,世卫组织建议如果有呼吸道症状的人应戴口罩,或在有症状的人的照顾下[7]。此外,许多公共服务提供商仅在戴有口罩[5]的情况下才要求客户使用该服务。

图1:FaceMask数据集中的图像示例[8]

如自动驾驶[12],教育[13],监视等[10]。 传统的物体检测器通常基于手工特征提取器。 Viola Jones检测器将Haar特征与积分图像方法结合使用[14],而其他工作采用了不同的特征提取器,例如定向梯度直方图(HOG),尺度不变特征变换(SIFT)等[15]。 最近,基于深度学习的对象检测器表现出出色的性能,并主导了现代对象检测器的发展。 在不使用先验知识来形成特征提取器的情况下,深度学习允许神经网络以端到端的方式学习特征[16]。 有一阶段和两阶段的基于深度学习的对象检测器。 一级检测器使用单个神经网络检测对象,例如单发检测器(SSD)[17],而您只看一次(YOLO)[18]。 相反,两级检测器利用两个网络执行从粗到精的检测,例如基于区域的卷积神经网络(R-CNN)[19]和更快的R-CNN [20]。 同样,人脸检测采用与一般对象检测器相似的架构,但是增加了更多与人脸相关的功能,例如RetinaFace [21]中的人脸标志,以提高人脸检测的准确性。 然而,很少有研究集中在人脸检测上。

在本文中,我们提出了一种新型的口罩检测器RetinaFaceMask,它能够检测口罩并为公共医疗服务做出贡献。 据我们所知,RetinaFaceMask是最早的专用人脸检测器之一。 在网络架构方面,RetinaFaceMask使用多个特征图,然后利用特征金字塔网络(FPN)融合高级语义信息。 为了达到更好的检测效果,我们提出了一种上下文关注度检测头和一种跨类目标去除算法,以提高检测能力。 此外,由于人脸数据集是一个相对较小的数据集,其中的特征可能难以提取,因此我们使用转移学习从训练有素的网络中将学习到的内核转移到扩展的数据集上进行相似的面部检测任务。 所提出的方法在面部蒙版数据集[8]上进行了测试,其示例可在图1中找到。该数据集涵盖各种蒙版或非蒙版的面部图像,包括带蒙版的脸,不带蒙版的脸,带蒙版和不带蒙版的脸。 一幅图像和没有遮罩的令人困惑的图像。 实验结果表明,RetinaFaceMask获得了最先进的结果,其面部和口罩检测精度分别比基线结果高2.3%和1.5%,召回率分别比基线高11.0%和5.9%。

论文的其余部分如下组织。在第二节中,我们审查了与目标检测和神经网络有关的工作。在第三节中提出了建议的方法。第四节描述了数据集,实验设置,评估指标,结果,讨论研究。

  1. 相关工作:

2.1对象检测:

传统的目标检测使用多步骤过程[22]。 一个著名的检测器是Viola-Joins检测器,它能够实现实时检测[14]。 该算法通过Haar特征描述符利用积分图像方法提取特征,选择有用的特征,并通过级联检测器检测物体。 尽管它利用积分图像来简化算法,但在计算上仍然非常昂贵。 在[23]中用于人体检测的方法中,提出了一种称为HOG的有效特征提取器,它可以计算图像单元上定向梯度的方​​向和大小。 后来,基于零件的可变形模型(DPM)检测到对象零件,然后将它们连接起来以判断对象所属的类[15]。基于深度学习的检测器由于其鲁棒性和较高的特征提取能力,而不是使用手工功能,最近展示了出色的性能[22]。 有两种流行的类别,一级对象检测器和二级对象检测器。

两级检测器在第一阶段生成区域提议,然后在2 A PREPRINT-2020年6月9日生成图2:RetinaFaceMask的体系结构在第二阶段微调这些提议。 两级检测器可以提供较高的检测性能,但速度较慢。R-CNN的开创性工作是由R. Girshick等人提出的。 [19]。 R-CNN使用选择性搜索来建议一些可能包含对象的候选区域。 之后,将提案输入到CNN模型中以提取特征,然后使用支持向量机(SVM)来识别对象的类别。 但是,R-CNN的第二阶段在计算上很昂贵,因为网络必须以一对一的方式检测提案,并使用单独的SVM进行最终分类。 快速R-CNN通过引入感兴趣区域(ROI)池层一次输入所有建议区域来解决此问题[24]。 最后,在较快的R-CNN中提出了区域提议网络(RPN)来代替选择性搜索,这限制了此类探测器的速度[20]。更快的R-CNN将每个单独的检测组件(例如区域提议,特征提取器,检测器)集成到端到端神经网络体系结构中。 一级检测器仅利用单个神经网络来检测对象。 为了实现这一点,应该预先定义一些指定对象的宽高比的锚框[22]。 一级检测器不是二级检测器,而是略微降低了性能,从而显着提高了检测速度。 为了实现这一目标,YOLO将图像分为几个单元格,然后尝试将锚框与每个单元格的对象匹配,但是这种方法不适用于较小的对象[18]。 研究人员发现,单级检测器仅使用最后一个特征输出并不能很好地工作,因为最后一个特征图具有固定的接收场,只能在原始图像上观察某些区域。 因此,SSD中引入了多尺度检测,它可以对多个特征图进行检测,以检测不同大小的人脸[17]。 后来,为了提高检测精度,Lin等人。 [25]等人通过结合SSD和FPN体系结构提出了视网膜网络(RetinaNet),该体系结构还包括一种新颖的焦点损失功能,以减轻类不平衡问题。

2.2卷积神经网络:

CNN在计算机视觉相关的模式识别任务中起着重要作用,因为它具有优越的空间特征提取能力和较少的计算成本[26]。 CNN使用卷积核对原始图像或特征图进行卷积以提取更高级别的特征。 但是,如何设计更好的卷积神经网络体系结构仍然是一个悬而未决的问题。 文献[27]中提出的初始网络允许网络学习内核的最佳组合。 为了训练更深入的神经网络,K。He等人。 提出了残差网络(ResNet)[28],它可以从上一层学习身份映射。 由于对象检测器通常部署在计算资源非常有限的移动或嵌入式设备上,因此提出了移动网络(MobileNet)[29]。 它使用深度卷积来提取特征,并使用通道明智的卷积来调整信道数,因此MobileNet的计算成本远低于使用标准卷积的网络。

2.3注意机制:

注意机制用于模仿人类的注意力,它可以专注于重要信息。 注意首先在递归神经网络(RNN)中使用,在[30]中引入了解码器-编码器机制。 在卷积块注意模块(CBAM)中,提出了一种更简单但有效的卷积注意机制,其中包含空间和通道注意[31]。 空间注意力使用最大和平均池来学习空间注意力图。

频道注意力旨在通过训练将最大和平均池输出训练到多层感知器中来学习一组频道注意力图。 然后,空间注意图和通道注意图可以通过元素操作与原始特征图相乘以产生注意特征图。

3方法论:

3.1网络架构:

所提出的RetinaFaceMask的体系结构如图2所示。为了设计一种有效的人脸检测网络,我们采用了[32]中提出的目标检测器框架,该框架提出了一种具有骨架,颈部和头部的检测网络。 骨干是指由卷积神经网络组成的通用特征提取器,用于将图像中的信息提取到特征图。 在RetinaFaceMask中,我们采用ResNet作为标准主干,但也将MobileNet作为主干,以进行比较并在计算资源有限的部署方案中减少计算量和模型大小。 就颈部而言,它是骨架和头部之间的中间组件,并且可以增强或细化原始特征图。 在RetinaFaceMask中,FPN用作颈部,它可以提取高级语义信息,然后通过添加带系数的运算将这些信息融合到上一层的特征图中。 最后,负责人代表能够实现网络最终目标的分类器,预测器,估计器等。 在RetinaFaceMask中,我们采用与SSD类似的多尺度检测策略,通过多个FPN特征图进行预测,因为它可以具有不同的接收场来检测各种大小的对象。 特别是,RetinaFaceMask利用三个特征图,并将每个特征图馈入检测头。

在每个检测头内部,我们还添加了一个上下文关注模块来调整接收字段的大小并专注于特定区域,类似于单级无头(SSH)[33],但具有关注机制。 检测头的输出是通过全卷积网络而不是全连接网络,以进一步减少网络中的参数数量。 我们将检测器命名为RetinaFaceMask,因为它遵循RetinaNet的体系结构,该体系结构由SSD和FPN组成,并且还能够检测小口罩。

3.2转移学习:

由于人脸数据集的大小有限,学习算法很难学习更好的功能。 由于基于深度学习的方法通常需要更大的数据集,因此提出了转移学习以将学习到的知识从源任务转移到相关的目标任务。 根据[34],转移学习只要有密切的关系就可以在很大程度上帮助学习。 在我们的工作中,我们使用经过大规模人脸检测数据集预训练的网络部分-Wideer Face,它由32,203张图像和393,703条带注释的人脸组成[35]。 在RetinaFaceMask中,仅骨架和颈部的参数是从“更宽的脸部”传递的,而头部则通过Kaiming的方法进行初始化。

此外,在基本情况下,预训练的Imagenet [26]权重被视为我们骨干网的标准初始化。

3.3上下文注意模块:

为了提高人脸的检测性能,RetinaFaceMask提出了一种新颖的上下文注意模块作为其检测头(图3)。 与SSH中的上下文模块类似,我们利用不同大小的内核来形成类似Inception的块。 它能够从相同的特征图获得不同的接受场,因此它将能够通过级联操作合并更多不同大小的对象。 但是,原始上下文模块不会考虑面部或遮罩,因此我们只需在原始上下文模块之后层叠一个关注模块CBAM,即可使RetinaFaceMask专注于面部和遮罩功能。 上下文感知部分具有三个子分支,分别在每个分支中包括一个3times;3,两个3times;3和三个3times;3内核。 然后,通过通道注意将串联的特征图馈入CBAM,以通过多层感知器选择有用的通道,然后通过空间注意将注意力集中在重要区域上。

3.4损失函数:

RetinaFaceMask为每个输入图像产生两个输出,即局部偏移预测Yblocisin;Rptimes;4和分类预测Ybcisin;Rptimes;c,其中p和c表示生成的锚点的数量和类别的数量。 我们还有

算法1:对象移除跨类

Require: selected face: D0f , C0f

; selected mask D0m, C0mlt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[606416],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。