英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
基于神经网络深度卷积的单目图像三维人体姿态估计
摘要
在本文中,我们提出了一个基于神经网络深度卷积的单目图像三维人体姿态估计方法。我们用两种策略来建立网络:1)多任务框架,共同建立姿势回归和身体部分探测器;2)预建立的回归任务的检测任务。我们在一个大数据集上比较我们的网络并用基线方法实现显著改善。人体姿态估计是一个结构化的预测问题,即每个身体部位的位置是高度相关的。虽然我们不添加相关部位间网络的限制,但我们的经验表明,网络已经分开不同身体部位之间的依赖关系,并了解他们的相关性。
1.综述
人体姿态估计是计算机视觉中的一个很活跃的领域,其应用前景广阔。在本文中,我们从单目RGB 图像中致力于3D人体姿态估计 [ 1-3 ]。在一般情况下,由于更大的三维姿态空间,更多的歧义,不可逆的透视投影,从二维RGB图像到三维空间中的姿态恢复要比二维姿态估计考虑更多。虽然用深度图已成为一种有效的3D人体姿态估计方法[ 4 ],但是在互联网上的大部分有效的媒体文件还是二维RGB格式。此外,单目姿态估计可被用于援助多视点姿态估计。
人体姿态估计方法可以分为基于模型的生成方法和判别方法。图案结构模型(PSM)是最流行的一种基于二维人体姿态估计生成的模型[ 5,6 ]。传统的PSM用一种铰接式结构治疗人体。该模型通常由两部分组成,即每个身体部分的外观模型和相邻部分之间的空间关系。由于在二维的肢体的长度可以改变,一种混合模型被提出,用来作为身体各部分的模型[ 7 ]。铰接式部分之间的空间关系比三维姿态更简单,因为对于一个特定的主题,3D肢体长度是一个常数。[ 8 ]提出了介于离散空间用PSM来进行三维姿态估计。
然而,通过离散化的分辨率,姿态立体空间增长, 使每个维度的分辨率加倍,将八极化姿态空间。
判别方法认为姿态估计是一个回归问题[ 4,9-11 ]。从图像中提取特征后,构成从特征空间到构成空间的映射。因为人体骨骼的铰接式结构,关节位置高度相关。要考虑的输出变量之间的依赖关系,[ 11 ]提出用结构化的支持向量机从分割特征到关节位置来学习映射。[ 9 ]用高斯过程来控制模型的输入和输出,并通过最小化高斯分布中输入和输出之间的KL散度来预测目标姿态。
与处理手工结构依赖性相比,一种更直接的方式是“嵌入”结构的映射函数并获得一种分开输出变量之间的依赖关系的表示。在这种情况下,模型需要从数据中发现人体姿态模式,这通常需要一个大的用来学习的数据集。[ 4 ]使用约500000张图片从深度图像预测身体部分标签,但数据是不公开的。最近发布的Human3.6M数据集[ 12 ]中含有约360万帧关于几个受试者执行各种任务的姿势的视频。这样一个大的数据集,使建立数据驱动的姿态估计模型成为可能。
最近,深层神经网络在许多计算机视觉应用取得成功[ 13,14 ],并且深的模型已经被证明是很好分离因素[ 15,16 ]。卷积神经网络是一种视觉问题中最流行的架构,因为它减少了参数的数量(相对于完全连接的深层结构),使建立模型更容易并且减少过拟度。此外,卷积和最大池结构使网络提取平移不变特征。
在本文中,我们考虑了2种方法来实现深卷积神经网络的单目三维姿态估计。特别地,一个方法是用在一个异构多任务学习框架中的一组检测任务来联合建立姿态回归任务。另一种方法是用检测任务准备建立网络,然后单独使用姿态回归任务来细化网络。据我们所知,我们是第一个表明深层神经网络可以从单一的图像应用于三维人体姿态估计。通过在回归网络中分析得到的权重,我们也证明网络已发现相关模式的人体姿态。
2.相关工作
有大量对姿态估计的文献,我们提醒读者对[ 17 ]的复习。接下来,我们将简要地回顾一下最近的回归网络和姿态估计方法。
[ 18 ]建立卷积神经网络分类,检测给定的窗口是否包含一个特定的主体部分,然后检测地图的每个主体部分的滑动窗口的计算整体形象。一个空间模型应用于执行所有的检测结果之间的一致性。[ 19 ]适用于深度图的联合点回归随机森林。树型结构是通过最小化分类成本函数获得。对于每个叶子节点,设置节点三维分布并实现像素到达该节点的估计。对于一个给定的测试图像,将所有像素分为叶节点,用于生成联合位置。
在[ 20 ]中,提出了一个级联神经网络的人脸点预测。后阶段的网络将集中在前一阶段的预测,结果表明,级联的网络有助于提高精度。同样的,[ 21 ] 3级级联神经网络的二维人体姿态从RGB图像中估计。在每个阶段中,网络体系结构是类似于在[ 13 ]的分类网络,但应用到的二维图像的联合点预测网络中的后期阶段比先前预测的输入窗口采取更高的分辨率。通过这种方式,可以利用更多的细节来细化以前的预测。假设级联的过程预测可以准确地通过只看一个相对较小的本地窗口周围的目标关节来实现。然而,这不是在三维姿态估计的情况下。要估计的关节位置的三维,目标关节的周围关节必须考虑。例如,通过在当地窗口中寻找一个肘关节,它在三维中非常困难估计其位置。此外,当身体部分被遮挡,本地信息是不够进行准确的估计的。因此,我们的网络只包含一个阶段。我们设计的网络要考虑所有的特征,使输出层中的每个节点接收来自所有像素的输入图像。
以前的作品,从图像中使用神经网络的三维姿态估计主要集中在刚性物体或头部姿势。[ 22 ]采用在单个图像的影响全连接网络的三维物体姿态参数估计。然而,[ 22 ]只适用于三维刚性物体,如杯子和盘子,它的对象很难是人类。[ 23 ]使用卷积神经网络来检测人脸,并估计头部姿势使用手动设计的低维流形的头部姿势。相反地,这些以前的作品,我们建立的三维姿态估计网络,是一个复杂的三维表达对象。最后,[ 24 ]使用一个隐含的混合条件限制的方法来模拟三维人体姿势的运动(即,预测上一个关节点的下一个关节点),并将其应用在一个贝叶斯过滤框架的三维人体姿态跟踪中。相比之下,这里直接从图像的三维姿态中估计,不考虑时间信息。
以前的作品已经证明,获得身体的一部分特征可以帮助找到更好的功能来实现估计[ 4,25 ]。在[ 4 ]中,随机森林用于估计身体的一部分特征的深度图像。给定的预测特征,意味着移位被用来获得部分位置。[ 25 ]建立一个多任务的深卷积神经网络的二维人体姿态估计,组成回归任务和身体部位检测任务。所有任务共享相同的卷积特征层,并显示回归网络与检测网络共享功能的好处。在这项工作中,我们还介绍了一种中间表示,身体关节的特征在一个多任务框架中获得中间特征。与[ 25 ]相比,这里我们专注于三维姿态估计。
预建立也被证明是有效的建立神经网络方式[ 26,27 ]。[ 26 ]经验表明,采用随机梯度下降建立的早期阶段在网络的最终表现中有很大的影响。建立前的“规范”让它有更好的推广网络。在这项工作中,我们提出了一个战略,通过检测网络等网络来实现回归网络。
在文献中,深度卷积神经网络主要用于分类任务[ 13,14,28 ],并取得了许多在视觉问题方面的艺术演示。重要的是,在给的足够数据中,深度卷积神经网络可以从随机初始化权值中获得好的特征。此外,所获得的分类网络的功能,也可以用于其他任务- [ 29 ]通过建立的分类神经网络的最后一个卷积层的输出到一个回归网络来实现预测对象的检测。
3.三维姿态估计的深层网络
在本文中,我们使用了2种策略来建立一个深层卷积神经网络的三维姿态估计。我们的框架包括2种类型的任务:1)一个共同点的回归任务;2)联合点探测任务。这两个任务的输入是包含人类主题的包围图像。回归任务的目标是估计关节点的位置相对于根节点的位置。我们定义了一组检测任务,其中每一个都与一个联合点和一个本地窗口关联。每个探测任务的目的是区分一个本地窗口是否包含特定的关节。
3.1符号
Ji = (Ji,x, Ji,y, Ji,z)是在摄像机坐标系中的第i个节点的位置。让P成为人体的关节骨骼模型,它指定了关节点的亲子关系。例如,P(i)指定的第i个节点的母节点。为了简化符号,我们让根节点的母节点是它本身。
3.2关节点回归任务
关节点回归的目的是预测关节到根关节的位置,Ji = Ji Jroot.。类似于[ 9,12 ],我们假设人的包围盒被提供,因此它没有必要估计人的根节点位置。然而,不是预测关节点到根节点的相对位置,这和[ 12,9,11 ]是一个共同的提法,我们的目的是预测的关节位置相对于它们母节点的位置,
Ri = Ji minus; JP (i).
这个表示可以解释为四肢的非标准化取向。有几个原因表示这可能是有利的:1) Ri的方差比Ji的小得多,这使得它更容易获得–例如,手腕和肘关节之间的距离(即kRwristk)是恒定的(同一人),而手腕和根位置的距离(Ji )有着广泛的可能值;2)由于人体是对称的,信息可以在不同节点之间共享,例如,左臂和右臂有相同的长度。此外,这种表示法可以更容易地推断出闭塞的关节的位置,并给出其相反的部分。
共同点是通过最小平方差回归建立之间的预测和实际的位置。
Er(Ri, circ;Ri) = ||Ri minus; circ;Ri||22
其中Ri和circ;Ri是真实和估计每个关节的相对位置。
3.3关节点检测任务
受[ 25 ]的启发,我们定义了一组检测任务,用于每个关节和每个窗口,其中的目标是预测指标变量,
hi,l=1,如果Bi在窗口l里
hi,l=0,其它
Bi是在输入包围盒的第i个关节的二维图像中的位置。Bi被投影Ji计算到图像上,并计算其相对于边界框的相对位置。在这项工作中,我们不考虑是否是可见的或不可见的,即,指标变量的计算,无论是否闭塞。做这件事的原因是建立网路其获得姿态估计的特征,即使存在遮挡。
在[ 25 ]中,检测任务被建立,通过最小化真实的标记和估计的标记之间的交叉熵,
Ed(^hi,l,hi,l)=-hi,llog(^hi,l)-(1-hi,l)log(1-hi,l)
回归任务和检测任务之间的关系如图1所示。
图1.检测任务和回归任务的说明
图2.网络体系结构
3.4网络体系结构与多任务训练
在图2中我们显示了三维姿态估计的网络架构。整个网络包括被回归和检测网络共享的9可建立层-3卷积层,和3个完全连接的检测网络层。整流线性单元用于conv1,conv2,和第一个全用于回归和检测网络的连接层。我们使用的双曲正切函数作为最后回归层的激活函数。为了使网络像素有足够强度的鲁棒性,我们在应用下面的函数来计算输出值的conv2后添加了一个归一化的局部响应。
在这里,Ux,y是在(x,y)上一层位置的值,(Wx,Wy)在(x,y)的位置附近,| W |代表在附近的像素数,{crarr;,}是超参数。
我们在一个多任务学习框架内建立网络。如在[ 25 ]中,我们允许低层在联合建立期间的回归和检测任务被共享。在建立的时候,两个网络的梯度将返回到相同的共享特征网络,即从网络层conv1到 pool3。在这种情况下,共享网络趋于获得有利于双方的特征。建立的多任务全球成本函数是:
训练样本的指标是指训练样本的数目,而不是训练样本的数目。
3.5预建立的检测任务
作为很早讨论的一种建立多任务的替代,另一种方法是用预训练的权重从检测网络建立姿态回归网络。首先,我们建立检测生产网络,即封锁pool3层与fcr1层之间的连接。在这个阶段中,我们只对(6)二次最小化。
在建立检测任务后,我们阻止pool3和fcr1之间的联系(从而消除检测任务),并重新连接pool3和fcr1层。使用这种策略,对姿势的建立方法采用从检测任务中获得的特征层权值初始化(conv1-conv3)。最后,姿态回归被(6)中的第一项建立。注意我们没有使用全连接层的探测器的权重(fcd1、fcd2)来初始化完全连接的回归任务(fcr1和fcr2)。原因是检测任务和回归任务的目标不同,因此通过检测任务所使用的高级功能可能对回归任务是没用的。
3.6建立的细节
对于多任务和预建立的方法,我们使用反向传播[ 31 ]在建立时更新权值。在多任务的建立中,pool3层转发其值到fcd1和fcr1,并在更新权值时接收fcd1和fcr1的平均梯度。为来减少过度拟合,我们在fcd1和fcr1中使用“辍学”[ 32 ],并设置辍学率为0.25。局部响应归一化层的超参数设置为alpha;= 0.0025 ,beta;= 0.75。更多的
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151730],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。