用于人类动作识别的多流深度学习模型外文翻译资料

 2022-08-09 11:42:26

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


用于人类动作识别的多流深度学习模型

摘要

人体动作识别是图像处理领域中最重要且最具挑战性的课题之一。与目标识别不同,动作识别需要运动特征建模,运动特征建模不仅包含空间信息,还包含时间信息。在本文中,我们使用多个模型来描述全局运动特征和局部运动特征。基于三通道深度运动历史图像(MHIs)可以有效地表示全局运动模式。同时,从骨架图中提取局部时空模式。将这两个流的决策进行融合。最后,考虑领域知识,即对象/动作依赖关系。该框架在两个RGB-D数据集上进行了评估。实验结果表明了该方法的有效性。其性能可达最先进的水平。

关键词:深度学习 信息融合 动作识别

1.介绍

随着深度学习在图像处理中的巨大成功,使用深度学习的方法进行基于视觉的动作识别越来越受到人们的关注。动作识别是一项基于连续的动作执行推断人类动作的任务。由于其在实际应用中的广泛性,如自动驾驶汽车、视频监控/检索等,使得视频中的动作识别成为一个热门话题。与单图像识别相比,由于动作长度的不确定性、类内方差和类间相似性,视频中的动作识别具有更大的挑战性[1]。为了应对挑战,研究人员尝试了不同的传感器模式来实现这个任务。例如,彩色图像被频繁用于人类行为识别[2]。从彩色图像中提取出HOG、STIPs、SIFT、光流等不同类型的特征进行识别。与光流相比,MHI将运动序列压缩成一幅图像,效率更高。另一方面,深度传感器(例如Microsoft Kinect)提供了一种获取几何信息的有效方法。由于人类行为是在三维空间中进行的,因此深度信息提供了非常有用的线索。

这项工作的新颖性如下:首先,以前的工作大多使用单一方式进行动作识别。在这项工作中,我们提出了一个多流模型来全面理解人类的行为。该模型综合了上下文信息,全局运动和局部运动,来进行动作识别。其次,与先前工作中使用的传统2D MHI不同,本文提出了基于三通道深度的MHI来表征深度方向运动,它可以区分前进和后退运动。第三,先前的骨架图通常会利用所有关节来识别不同的动作。我们提出了一种骨架选择机制通过选择相关节点以创建骨架图。这种机制生成了稀疏的骨骼关节图,从而减少了参数数量和过度拟合的可能。最后,考虑了对象动作约束。某些动作与背景环境密切相关。实验结果表明,该性能超过了大多数现有技术。

2.相关工作

动作识别的特征既可以手工提取,也可以从端到端的深度学习模型中自动学习。除了直接从原始图像中提取特征外,处理后的图像也引起了人们的关注。Watanabe等[4] 从MHI中提取平移不变特征进行运动识别。在文献[5]中,作者提出了一种全局和局部的运动过滤方法来去除无关运动。MHIs被用作基本的表征物。Ni等[6]开发了两种用于动作识别的多模态融合方案。利用时空兴趣点(STIPs)和MHIs作为特征表示。在文献[7]中,作者使用带约束的稀疏编码进行特征量化,使用时间金字塔匹配进行特征表示。决策元学习的约束包括群体稀疏性约束和几何约束。Chen等[8]将深度运动图(DMMs)投射到三个参考平面上,以捕获运动模式和特征。它们使用局部二进制模式进行压缩。提出了两种融合方法。Wang等[9]尝试根据小训练数据集上的深度图识别人类行为。该模型采用加权分层深度运动图作为输入,采用三通道CNN进行特征提取。

从理论上讲,对骨骼关节的强力的跟踪使得捕捉人类的运动变得很容易。早期的方法主要是通过手工特征和分类器来模拟骨骼的空间结构和时间动态。在[10,11]中使用HMMs (隐马尔可夫模型)学习动作动力学。利用协方差矩阵作为骨架序列的判别函数。Liu等[12]人设计了基于三维骨架序列的在线动作预测框架,提出了一种扩展的卷积网络。Rahmani等[13]人提出了一个深度模型,该模型有效地模拟了视点变化下的人与对象之间的相互作用以及类内部的变化。为学习人体各部位与环境对象之间的关系、人体各部位之间的相互作用以及人体动作的时间结构,又提出了一种端到端学习框架。Rahmani等[14]提出了一个鲁棒的非线性知识转移模型(R-NKTM),用于从新视图中识别人类行为。所提出的R-NKTM是一个深度全连接的神经网络,它通过寻找一个连接视图的非线性虚拟路径,将人类行为的知识从任何未知视图转移到一个共享的高级虚拟视图。Ke等[15]提出了一种新的方法来预测具有不完整骨架序列的动作, 学习了具有相似统计特性的隐藏特征空间。时间感知交叉熵用于解决运动的多样性。得益于深度学习的发展,许多最先进的方法都是基于LSTMs(长短时记忆网络)[16]和CNN(卷积神经网络)[17]。LSTMs能够有效地对长期序列数据进行建模,而CNNs能够有效地捕获空间信息。在[18]中,提出了一种端到端递归神经网络(RNN)。与骨骼相关的特征被用作动作识别的输入。该神经网络由双向递归神经网络(BRNN)叠加而成。文[19]引入了一个正则化的深LSTM网络来学习骨架关节的共现特征。Li等[20]构建了同时具有在线检测和识别功能的RNN框架。该框架自动对特征和长期时间动态进行建模,使用LSTM作为循环层。Liu等[21]提出了一种扩展的LSTM框架,即时空长短时记忆(spatial -temporal long short-term memory, ST-LSTM)网络,用于分析每个关节的时空信息。在[22]中,作者开发了一个基于CNN的端到端层次结构,从不同动作的骨架数据中学习有区别的联合信息。Keet 等[23]提出了一个CNN模型来提取骨骼的全局长期临时表征。Li等[24]设计了一种端到端卷积共现网络,旨在利用CNN捕获层次共现特征。Yan等[25]首先将图像CNN 应用到骨骼数据上进行动作识别,并创建一个新的ST-GCN来对时空特征进行建模。

另一方面,已经有人对多个信息流分别建模。Simonyan等[2]提出了一种双流CNN模型,一流采用多帧密集光流对运动进行建模,另一流采用单帧作为输入。静态外观本身是一个有用的线索,因为有些动作与特定对象有着强烈的关联。最后实现了softmax评分的融合。Feichtenhofer等[26]创建了一个类似于Simonyan模型的双流CNN。除了在softmax层融合外,在卷积层融合时空网络。该方法在两个基准数据集上的性能优于目前的技术水平。Song等[27]尝试将多个深度学习流融合在一起,以识别以自我为中心的活动。对于视觉输入,使用CNN对单帧和光流进行建模。另一方面,加速度计和陀螺仪的数据由LSTM建模。实现了两级softmax融合,得到最终的融合结果。Du等[28]使用骨架特征并将其反馈给分层的RNN。人体骨骼被分成五个部分,然后分别输入到五个子网。

视觉注意也引起了研究者的关注。我们的想法是关注感兴趣的区域而不是整个图像。Sharma等[29]提出了一个软注意模型。该模型关注与任务相关的框架区域,并赋予它们更多的权重。利用LSTMs对时间信息进行建模。Liu等[30]提出了一种基于注意力的LSTM模型,该模型考虑了每个骨骼关节相对于全局动作序列的信息性。注意力集中在信息丰富的关节上。Zhou等[31]提出了一种学习视觉姿势和语义姿势之间映射的方法来构建词典。动作识别的任务是在给定视觉姿势序列的情况下,通过学习词汇,找出最可能的语义姿势序列。Kuipers等[32]探索使用高级语义概念(属性)定义人类行为的思想。使用手动定义的属性和数据驱动的属性。该方法在多个公共数据集上进行了测试,取得了令人满意的结果。Zhao等[33]首先定义了身体局部特征语义。然后他们用它们来识别单色图像中的动作。人体被分解成五个部分。对其分别进行映射,再将其融合以预测全身的动作。Duckworth等[34]使用无监督的方式,使用潜在的语义分析来揭示概念。时空特征的出现被视为词汇表。使用具有挑战性的数据集对提出的方法进行评估。

与现有工作相比,我们的方法充分利用了领域知识,全局和局部特征来进行动作识别。 首先,基于深度的3通道MHI端到端深度学习模型用于捕获全局运动。其次,建立一个稀疏的骨架关节图,并将其输入到时空网络中,以捕捉局部运动。最后,将领域知识用于进一步提高动作识别性能。 本文的其余部分安排如下,第3节介绍了总体方法。 第4节介绍了实验,然后讨论了结果。 第5节得出结论并提出未来的工作建议。

3.方法

总体框架如图1所示,共有三个流。每个流都对一种与动作有关的信息进行建模。 以下各节给出了该框架的详细信息。

图1 行为识别总体框图

3.1基于3D MHI的模型

在MHI [35]中,时间运动信息被折叠成单个图像模板,其中强度是最近运动的函数。传统的MHI仅表征平行于图像平面的横向运动。给定深度信息,可以扩展MHI来表征垂直于图像平面的运动。 我们使用深度图像生成前向和后向MHI。我们定义I(x,y,t)为图像序列,其中每个像素深度值为点(x,y)运动的时间历程的函数。

(1)

这里表示MHI持续时间,它是基于帧的数量定义的,设置为10。x、y和t分别表示图像坐标和时间。控制衰变的速度。(x,y,t)决定运动是否发生,这是根据帧之间的像素差计算的。在我们的实验中,衰减参数设为 (2)

其中为二值化阈值。设置为5。然后,D(x, y, t)是定义如下,

对于常规MHI:

(3)

对于正向MHI:

(4)

对于反向MHI:

(5)

其中,d(x,y,t)是时间为t,像素位置为(x,y)的深度值。是时差。 在本文中设置为2。图2显示了常规,向前和向后的MHI组合在一起作为三通道图像。输入图像序列具有30帧长度。 所示的MHI在时间步长t = 30处。

图2 时间步长t = 30时的3通道MHI图像(输入序列的长度为30帧)。在这里使用NTU数据集中的动作样本

将生成的3通道MHIs输入到ResNet-101[36]中进行特征提取。ResNet-101是一种流行的深度学习模型,与VGG-16/19网络相比,该模型在参数较少的情况下获得了令人印象深刻的精度[37]。该网络由瓶颈构建块、全局平均池化层、全连接层和softmax层组成。每个构造块包括3个卷积层。1times;1滤波器用于信道的减小和增大。采用中间的3times;3滤波器进行规则卷积。这样的设计大大减少了常规卷积结构的参数数量。此结构将输入直接连接到输出端。

块的输出定义如下:

(6)

这里X和是输入向量和构建块的权重。表示要学习的残差函数。

3.2基于预选骨架的ST-GCN

第二个动作识别流是基于骨架数据的。基于骨架的网络由于其视图不变的特性,在动作识别中得到了广泛的应用。大多数工作都利用骨架的空间特性。本文基于骨架数据建立了骨架序列的时空图。此外,采用稀疏的时空骨架图代替整个关节,减少了计算量,降低了过拟合概率。研究表明,对于给定的动作,信息关节的子集通常比其他关节对动作分析的贡献更大。因此,我们鼓励将它们从整个集合中识别出来。

骨架选择采用线性判别分析。其目的是找出最能提供信息和补充信息的特征。输入的特征向量X是大小为Jtimes;K的向量,其中J是关节的个数,K是每个关节的特征大小。给出第i类的样本集。,其中为第i类样本的个数。类内和类间离散矩阵定义如下:

(7)

(8)

其中,为为试样总数;C是类的数目;是i类的平均向量,U是整个数据集的平均向量。目的是求出使下列方程最大化的投影向量w:

(9)

一旦我们有了向量w,我们可以从输入特征向量X中选择子集来得到最大的。我们使用在[38]中提出的方法来寻找最优子集。

给定选定的关节,创建时空图,将每个关节视为一个节点。定义了两种边缘。内部边缘连接框架内的关节。外部边缘连接不同帧之间的同一关节。边缘反映了节点对其邻近区域的贡献。与标准图像卷积相似,骨架图像卷积需要定义邻域和相应的权值。邻域是根据到查询节点的距离D来定义的。另一方面,与图像不同的是,权函数不像常规卷积那样包含空间顺序信息。因此,定义了划分函数来确定邻域的权重。

在这种情况下,划分函数将邻域分为两个集合。D=0的子集,是查询的节点本身。D=1的子集,包含与查询节点距离为1的邻域。因此,使用了两个不同的权重向量,它们能够对局部差分特性进行建模。。空间图卷积定义如下:

(10)

这里是根节点(包括)的邻域集,f的输出为关节的3D坐标。 w是权重。为了扩展到时空维度,扩展了邻域集。

(11)

其中定义为时间范围。

总共有9层空间时间图卷积算子。前三层具有64个通道,随后三层具有128个通道。最后三层有256个通道用于输出。

前两节介绍了两种捕捉运动特征的模型。基于3通道MHI的模型捕获全局特征,包括背景变化。基于骨骼的模型着重于局部特征。因此,将这两个互补模型的输出结合起来以寻求进一步的改进。这两个模型的特征向量都输入到softmax函数。 然后将softmax分数相加以获得最终分数。

3.3语义动作识别框架

除了低水平的运动信息外,高级上下文信息还可

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239273],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。