基于图像的行人检测与重识别方法研究与实现外文翻译资料

 2022-08-13 15:59:21

英语原文共 18 页,剩余内容已隐藏,支付完成后下载完整资料


摘要

给定从照相机获取的人的视频或图像,行人重识别就是从具有非重叠视图的不同照相机获取的视频或图像中检索出同一人的过程。该课题在监控、取证、机器人、多媒体等领域有着广泛的应用。

在本文中,我们提出了一个新的框架,称为显著性语义解析再识别(SSP-ReID),它利用了显著性和语义解析映射这两种线索的能力,来指导骨干卷积神经网络(CNN)学习互补表示,从而使结果优于原始骨干。融合多个线索的洞察力是基于特定场景的,其中一个响应比另一个好,因此有利于它们的组合以提高性能。由于它的定义,我们的框架可以很容易地应用于各种各样的网络,与其他竞争方法相比,我们的培训过程遵循简单和标准的协议。我们通过五个骨干和三个基准对我们的方法进行了广泛的评估。实验结果证明了本文提出的人再识别框架的有效性。此外,我们将我们的框架与重新排序技术相结合,并将其与最先进的方法进行比较,从而获得具有竞争力的结果。

关键词:行人重识别,深度学习,多线索引导学习,人类语义分析,显著性检测,卷积神经网络

1.引言

行人重识别(ReID)是一个非常具有挑战性的问题,它的目标是在给定探测(查询)的行人库中,通过摄像机找到识别后相同(ID)的所有实体。探测器和图库是从不同的相机视图录制的,这也使得它存在一些挑战,包括视频图像中行人被遮挡、复杂的背景、照明条件恶劣等问题,然而,最困难的情况就是行人的姿势和视觉角度发生很大的变化。

行人重识别通常定义在没有高分辨率图像的环境中(例如,安装在大学和机场的安全摄像头)。由于基于人脸识别的方法不能有效地应用,目前的方法都是基于人的外表。最近,卷积神经网络(CNN)的使用在这项任务中变得很流行。

前面提到的所有问题和困难都使行人重识别成为一项困难的任务,甚至对人类来说也是如此。假设两个不同的人穿着相似的衣服,只有腰带和鞋子的颜色有一些不同,而这些细节可能就是辨别行人的关键线索。在一个充满摄像头的安全时代,一些小细节,比如鞋子或皮带的颜色,可能视频图像中不够清晰,以至于会被人忽略,因此这两个人很有可能会被认为是同一个人。这种真实情况出现在多个行人重识别数据集中,这些数据集中有低分辨率显示图像、缩放图像、更改后的图像或与边界框不对齐的图像。

值得一提的是,行人重识别任务是将场景中人物周围的边界框视为输入,这些边界框可以是一系列图像或视频。在这项工作中,我们关注的是图像,然而,我们的框架可以很容易地扩展到视频图像中目标行人周边以外的区域。

由于行人的姿态和视觉角度的变化是行人重识别的关键问题,有几种方法是基于分离的水平条带图像,基于这些图像对人进行比较,但这种方法并不是一个完整的解决方案。正如Kalayeh等人指出的那样[1] ,语义分析是对水平条纹的自然改进,因为它提供了像素级的标签,所以我们决定在框架中使用这个细节。此外,我们意识到并非每个人的信息都是一样的,在某些情况下,一个颜色鲜艳的背包或其他突出的物体也可能是行人重识别的线索。因此,我们设计了一个统一的框架,将语义分析和显著性结合起来,以提高行人重识别系统的性能和效率。对于这个问题,结合多个线索进行行人重识别的想法是很自然而然的,因为框架的每个子网流都可以学习从而解决不同的场景。

本文的主要研究内容概括如下:首先,我们介绍了一个使用显著性和语义分析的新框架。据我们所知,这是第一个将这两条线索结合起来进行重识别的工作,在三个数据集和五个主干上进行的大量实验表明,我们的方法能够改进结果,并表明,它可以与许多其他主干一起使用,又因为它的缺陷是尼顿,与其他竞争方法不同,我们的框架充分利用了预先训练的模型,并且需要最少的微调时间来达到竞争性的结果。此外,我们的训练过程不需要合并多个再鉴定基准点。我们对三个应用最广泛、最具挑战性的行人重识别数据集进行了实验测试,与最先进的方法相比,我们的框架取得了竞争性的结果。

本文的其余部分安排如下:第2节简要回顾了显著性检测、语义分析检测以及在行人重识别上下文中使用这些概念的方法;第3节定义了重新识别问题和模型,这些模型可以用作框架的主干,然后描述我们的方法;第4节提供实施详细信息,验证方案,评估和与最新技术的比较;第五部分是对全文的总结,并对今后的工作提出了展望。

研究背景

本节主要回顾了与本文研究课题相关的一些概念和工作。描述了显著目标检测、行人语义分析和行人重识别技术。

    1. 显著目标检测

显著性检测是一项任务,其目的是确定人类观察者将注意力集中在第一眼。它在图像分割、目标检测、视频摘要、压缩等视觉任务中有着广泛的应用[2]。

早期的显著性检测方法是通过局部低层特征(如强度、颜色、方向和纹理)或基于在图像中发现区域的全局特征来驱动的,这意味着傅里叶域中的独特频率[3]。近年来,由于卷积神经网络具有表示多尺度、多层次特征的能力,其深度模型已经成为目前主流解决方案。现有的方法包括多层感知器(MLP)和完全循环神经网络(FCNN)[4]。赵等人提出了第一个将显著性概念用于行人重识别的研究中[5] ,他们的方法是基于补丁匹配的方法。每个图像补丁都有一个关联显著性,该显著性是以无监督的方式计算的,然后使用手工制作的特征在补丁邻域内计算匹配。显著性差异过大的斑块之间的匹配会给模型带来损失,因此,该模型适合于最小化补丁匹配的总成本。与此工作不同的是,我们不使用任何基于补丁匹配的方法,而是使用深层特征来编码人的特征。因此,该模型适合于最小化补丁匹配的总成本。与此工作不同的是,我们不使用任何基于补丁匹配的方法,而是使用深层特征来编码人的特征。

Liu等人[6] 提出了一种基于注意力的方法,称为HydraPlus网。虽然作者没有使用显著性的概念,但是这个概念是相关的,因为他们引导的网络更加关注图像的特定区域。与此不同的是,我们的方法首先从输入图像中计算出显著的目标映射,然后使用此映射来衡量卷积神经网络主干的中间层;另一个不同之处是,我们的培训流程不包括显著性检测步骤作为其流程的一部分。最后,我们的框架被设计成能够使用不同类型的主干(ResNet[7],DenseNet[8],等等),而HydraPlus Net被设计成使用Inception[9]块来构建它。

与HydraPlus Net类似,周等人[10] 提出在学习显著图的同时重新识别。他们引入了双线性编码的加权版本[11]来编码高阶信道交互作用,与我们的框架的主要区别在于显著图是通过我们管道中的原始图像计算出来的,而周等人的工作则是[10] 使用GoogLeNet[9]的输出作为其显著性部分网络的输入。

钱等人[12] 提出了一种从行人重识别管道中学习显著性的网络。他们准确地指出,不同尺度上的特征并不是行人重识别能很好解决的问题,他们提出的MuDeep网是一个能够学习不同尺度上的特征并创建显著性掩模来强调具有高度鉴别特征的信道的网络。在我们的框架中,我们引导网络学习的是显著性和语义解析映射,而不使用多尺度信息。

2.2.人类语义分析

人类语义分析的目的是将人类图像分割成具有细粒度意义的区域,在再识别和人类行为分析中有着广泛的应用[13]。在一般形式上,语义分析在其他几个领域也有应用,如图像蒙太奇、对象着色、立体场景分析和医学分割[14]。Kalayeh等人[1] 证明了使用语义分析可以提高行人重识别的结果,他们提出使用一个基于初始的网络来计算语义映射并生成用于全局表示输入的特征。然后,将上次平均池之前的特征映射乘以解析映射以创建本地表示。我们的框架与他们的方法相似,因为我们在行人重识别中也使用了人工语义解析,但是有一些关键的区别:第一个是我们使用中间层而不是最后一层,因为我们认为非常深的层表示编码太抽象的信息,并且以有意义的方式将其与语义和显著性映射结合起来是不直观的;其次,我们在我们的框架中引入显著性,正如我们的实验所表明的,显著性和解析映射包含能够增强结果的互补信息。最后,我们的培训过程不需要结合各种基准来创建一个庞大的培训数据集。

2.3.行人重识别

行人重识别(re-ID)定义为在多个摄像机上匹配同一个人的所有实例,即将感兴趣的人(名为probe)与先前捕获的候选人库进行比较。行人重识别有与监控公共区域/事件相关的应用程序,用于预防危险事件(如恐怖主义和谋杀)。因此,近年来它受到了计算机视觉界的广泛关注和研究。

早期的作品侧重于手工制作的特征,如颜色和纹理,然而,由于变化多样的视觉角度和光照变化,这些类型的特征没有足够的辨别力。目前,深度学习已经在再认问题上建立了一种新的范式。

常等人[15] 提出了一种多级因子分解网(MLFN),它在多个语义上对特征进行编码。多级因子分解网由具有相同结构的各种堆叠块和块选择模块组成,这些模块学习解释输入图像的内容,选择块背后的洞察力是控制和特别化每个块正在学习的特性。

Zh赵等人[16] 使用GoogLeNet[9]提取特征。其多分支体系结构使用这些特征来检测区分区域并创建部件对齐表示,从这个想法,他们能够克服失调和姿势的变化。不同于这项工作,苏等人[17] 通过独立训练的姿态估计器直接从输入图像中提取人体部位,然后,他们从完整的图像和零件中提取特征,在局部线索的情况下,他们的架构考虑了仿射变换。最后,由于姿态估计可能会受到姿态变化或遮挡的影响,所以它们使用加权子网来组合局部和全局特征。

李等人[18] 提出了一种协调注意网络(HA-CNN),该网络同时学习细粒度相关像素和粗隐区域。协调注意网络是基于多分支结构中的Inception[9]块,用于全局和局部表示。他们进一步介绍了一种将这些表示和谐地结合在一起的方法。

3.建议方法

在这一部分中,我们更正式地描述了行人重识别问题,并给出了我们的具体框架。

3.1.问题表述

我们将行人重识别看作一个检索过程,即给定一个星人身份为yp的查询人员xp和一个m people X={x1,x2。,xm}具有id Y=y1,y2。,ym,然后行人重识别的目标是恢复所有xi,(1i m)使得yi=yp。

假设具有学习参数theta;的模型M(theta;)能够用特征映射fp和F=f1,f2,hellip;,表示X中的xp和人分别为fm。因此,我们可以使用欧式距离来比较F的每个元素的fp,并根据特征映射的相似性构造一个排序列表。依靠在使用行人重识别的应用程序和上下文中,这个排名列表可能会在前1、5或更多位置被截断。生成的列表L(也称为排名列表)被部署为仅代表具有等于yp1的身份的人。

3.2.行人识别框架

基于姿态和视觉角度的变化是重识别任务中一个具有挑战性的问题,我们提出了全局表示与显著性和语义分析相结合的方法。如我们的实验所示,这两种类型的掩模生成互补的特征映射,与原始卷机神经网络主干相比,改进了结果。显著性对于重新识别很重要,因为在特定的场景(图1)中,人们有一些可以指导重新识别过程的项目。

然而,显著性并不能完全解决这个问题,因为它集中在图像的某些区域,并且可能受到遮挡的影响。因此,我们使用语义分析对人的每个部分进行编码,并克服了边界框检测和遮挡中的错位(图2)。

我们提出了显著语义分析框架,如图3所示,它由两个流组成。然而,这两种方法都有相同的主干架构,而没有共享权重。其中一个流(称为S-ReID子网)专注于获取全局显著性特征,而另一个流(称为SP-ReID子网)专注于获取全局语义解析特征。我们框架的输出是一个用于比较查询和库图像的功能图。

图1:同一个人的显著性检测示例(从左到右):原始图像、显著性地图和与原始图像重叠显著性地图的结果。突出的焦点是手臂和白色的包。我们的框架使用这些信息来指导特征学习过程。

图2:使用同一个人的五个语义区域和两个不同视图进行解析的示例,使用这些地图来克服错位和闭塞。

给定输入图像,我们使用现成的深度方法计算显著性和语义分析映射[21,13],对于语义分析,我们考虑了5个语义区域2,然后,我们用一个美国有线电视新闻网来创建这个人的全球代表。此外,我们从中间层提取特征映射,并将其与一个流中的显著性映射和另一个流中的语义解析映射相连接。我们决定使用中间层,因为众所周知,随着卷积神经网络的深入,它会对更抽象和更高语义级别的特征进行编码(例如,输入图像和非常深的特征映射之间的头部位置关系可能看不清楚)。因此,将原始显著性/语义分析映射与中间层结合起来更直观,因为中间层没有太抽象的信息,同时,它编码了丰富的信息。

给出一个中间张量 tau; isin; Rhtimes;wtimes;c和一个显著性/语义分析图 omega;isin;Rhjtimes;wj ,,以便连接中间特征张量和显著性/语义解析信息时,我们首先在张量上应用双线性插值来变换tau; isin; Rhjtimes;wjtimes;c,然后,我们在张量和映射的每个通道之间应用元素积。最后,我们使用平均池来获得特征向量v。对于显著特征连接,输出特征在Rc内,而对于语义分析功能,由于考虑了5个语义区域,连接位于 R5c内部。

为了训练我们的网络,我们考虑了带标签平滑正则化器(LSR)的交叉熵损失函数[22]和带硬正负挖掘的三重态损失函数[23]。

LSR是地面真值标签分布的一个变化,其目的是通过在标签上加上先验分布使模型更具适应性。为了避免最大logit变得比其他

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235956],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。