英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
用于任意视图人类动作识别的大规模可变视图RGB-D动作数据集
摘要—当前动作识别的研究主要集中在单视图和多视图识别上,这几乎不能满足人机交互(HRI)应用程序从任意视图识别动作的要求。缺乏数据集也设置了障碍。为了提供用于任意视图动作识别的数据,我们新收集了用于任意视图动作分析的大规模RGB-D动作数据集,包括RGB视频,深度和骨骼序列。该数据集包括在8个固定视点和可变视角序列中捕获的动作样本,该序列涵盖了整个360◦视角。总共邀请118个人参与40个动作类别,并收集了25,600个视频样本。我们的数据集涉及更多的参与者,更多的观点和大量的样本。更重要的是,它是第一个包含整个360◦可变视图序列的数据集。该数据集提供了足够的数据用于多视图,跨视图和任意视图动作分析。此外,我们提出了一种视图引导的骨架CNN(VS-CNN),以解决任意视图动作识别的问题。实验结果表明,VS-CNN具有优越的性能。
索引词-人类动作识别,可变视图RGB-D动作数据集,交叉视图识别,任意视图识别,HRI
- 介绍
人体动作识别已广泛应用于公共监视,图像/视频字幕和人机交互[1]–[3], 等。动作识别的方法已经从轮廓中发展出来[4], [5], 地方特色[6]–[8] 深入功能[9], [10], 和骨骼[11], [12]. 现有研究集中在单视图(主要是正面视图)和多视图动作识别上[13]. 但是,它们几乎无法满足机器人对人机交互(HRI)应用程序以任意视图识别人的动作的需求。在家带服务机器人(如图。1) 例如,它可以自由移动到任何地方并与家人互动。在移动过程中,机器人会捕获任何视点中的人类动作,当然希望能够理解任意视点中的人类行为。然而,任意视角的人类动作识别仍然是一个很大的挑战性问题。一方面,视图变化导致动作闭塞和姿势变化。另一方面,用于任意视图动作识别的数据集很少。
季艳丽,徐飞翔,杨阳,沉福民和沉恒涛,中国电子科技大学计算机科学与工程学院未来媒体研究中心。电子邮件:yanliji@uestc.edu.cn.
郑维时就读于中山大学数据与计算机科学学院。
通讯作者:沉恒涛。手稿于2018年XX月收到;修订于2018年XX月。
图1. HRI应用程序中的任意视图动作。机器人在人类周围移动,并期望以任意的视角理解人类的行为。
已经开发了用于多视图动作识别的数据集[14]. RGB信息用于多视图动作识别[15], [16].随着深度传感器的发展,提出了包含RGB-D信息的数据集,例如Act42,Multiview 3D Event,Northwestern-UCLA和UWA3D Multiview,以及NTU RGB D action数据集[17]–[21]. 对于任意视图识别,期望将在大范围视图中捕获的动作样本用于模型训练。但是,几乎所有现有数据集都是在有限的视角下捕获的。在CMU动作数据集中利用运动捕捉运动1,生成了包括各种观点的动作样本的训练数据集,并将其用于训练用于多视点动作识别的分类器[22]–[24]. 然而,数据集的生成遭受昂贵的计算成本,并且需要运动捕捉运动数据集来覆盖大量动作类别,这也是一个难题。为了解决缺少合适数据的问题,我们提出了一个大型RGB-D动作数据集,其中包含覆盖整个360◦个视角天使的多视角序列。该数据集为任意视图动作识别提供了足够的样本。
许多研究努力已经致力于解决多视图动作识别的问题。采用转移学习方法将知识从一种观点转移到另一种观点[5], [25]–[28], 或将特征知识从基准数据集转移到测试数据集[16]. 由于观察到的动作顺序不同
视点容易受遮挡,时间运动用于视图不变动作表示[18], [21], [29]. 进一步的解决方案是从3D姿势中学习关节的空间关系以构造视图不变表示[12], [30], [31]. 但是,大多数现有方法只能处理小范围的视图更改。对于具有视图更改的动作识别,一种解决方案是为不同视图中的动作寻求通用表示。刘等。[32] 将骨骼序列可视化为彩色图像以表示动作,并提出了SK-CNN识别动作的方法,这种方法可以减弱不同视图之间的差异。关于包含全圆视图的数据集,当前解决方案无法处理识别任务。为了涵盖整个圆形视图,我们将整个圆形视图分为四个视图组,并提出了一种视图引导的骨骼CNN(VSCNN)方法来识别具有较大视图变化的动作。在本文中,我们新收集了用于任意视图动作识别的大规模RGB-D动作数据集。数据集包含在8个固定视点和不同视角序列中捕获的样本,这些样本覆盖了整个360◦视角。在固定视点中捕获的样本提供用于任意视图识别的训练数据,也可以用于多视图识别。数据集包含40个健身动作类别,并邀请118个人进行这些动作。总共收集了83个小时的RGB视频,并且深度图像序列,骨骼序列具有与RGB视频相似的帧号。此外,我们提出了一个基线,称为视图引导骨骼CNN(VS-CNN),以解决这些问题。该模型包括一个视图组预测模块和与四个视图组相对应的四个分类器。视图组预测模块通过将动作样本分离为四个视图组并驱动相应分类器的训练来指导分类器的训练。最后,对四个分类器执行加权融合,然后使用SoftMax分类器将融合特征分类为相应的动作类别。由于视图组彼此重叠,因此VS-CNN学习不同视图组中动作的通用表示。总而言之,我们的专业
贡献包括:
我们提出了用于任意视图动作识别的大规模RGB-D动作数据集,其中包括118个主题和8个固定视点。据我们所知,这是涵盖整个360◦可变视角序列的首批数据集之一。
bull;
为了解决任意视角动作识别问题,我们提出了VS-CNN,它克服了大视角范围内动作识别的空白。
bull;
在我们收集的数据集上对提出的方法进行了广泛的评估,并且有希望的性能验证了该方法和数据集的有效性。
bull;
- 相关工作
- 具有2D功能的多视图动作识别
与一般动作识别相同,多视图动作识别的关键问题也是学习动作的有效表示。在2D视频中已经为动作表示开发了许多本地功能
和深度序列[33]–[35], 并将它们引入多视图动作识别[36]–[38]. 要学习有效的功能,Hu等。[39] 提出了JOULE模型,该模型探索了来自多个特征通道(即RGB)和骨架特征的共享和特定于特征的组件,作为动作识别的异构特征。近年来,引入了卷积神经元网络(CNN)进行2D特征学习,并开发了一系列有效的网络,即ResNeXt[40]. 为了包括动作序列的时间信息,LRCN(长期递归卷积网络)[41] 被提出进行动作识别。
由于视角变化导致人的姿势在2D视频和深度序列中发生变化,因此提出了一系列方法来解决该问题。刘等。[16] 使用二分图划分将一包视觉词从两个独立的观点收集的词汇聚类为视觉词簇,从而弥合了不同观点之间的动作语义鸿沟。此外,刘等。[28] 建立了一个可转移的字典对,以在正视图和侧视图操作之间进行特征转换,并且在两个视图中获得了通用表示。尽管局部特征在很小的范围内对视点变化不敏感,但是当发生较大的视点变化时,它会遭受严重的遮挡。因此,需要可用于解决视图改变问题的方法。
- 具有3D功能的多视图动作识别
3D信息在多视图动作识别中起着重要作用[29], [42]. 在大型集合数据集和测试数据集之间架起桥梁,通过将各种视点的序列与大型集合数据集的数据样本进行匹配来实现多视图动作识别,从而缩小不同视点之间的差距[22]–[24]. 但是,一个主要的限制是用于数据集生成的昂贵的计算成本,并且还要求运动运动数据集具有大量的动作类别。一种解决方案是学习3D关节的空间关系,以实现视图不变的动作表示和识别[17], [30], [31]. 此外,Shahroudy等。[21] 提出了一种感知零件的LSTM模型(P-LSTM),该模型包含用于身体部位特征学习的多个并行存储单元和一个用于身体部位之间信息共享的输出门。P-LSTM结合了身体部位的上下文信息,并提供了动作识别的全局表示。使用图模型对3D几何关系进行建模以实现多视图识别[18], [19]. 这些高级表示在不同的观点上多少产生了共同的描述。
此外,一些方法将3D骨架特征转换为2D视觉图像,并利用通过CNN进行特征学习来获得更高的动作识别结果。Kim等。[43] 收集时间骨架轨迹并创建在整个视频序列中时间上串联的逐帧骨架特征,并且Res-TCN被设计用于动作识别。刘等。[32] 将动作序列的骨骼运动可视化为增强的彩色图像,并使用多流CNN融合模型来识别动作(SK-CNN)。严等。[44] 时空图卷积模型化时空孔骨架
网络(ST-GCN)了解了骨骼关节的重要性,并在图卷积层上为动作表示分配了适当的权重。受益于通过CNN进行有效的特征提取,这些方法具有良好的性能
享有风景7
查看1
iew 6
视图
4.8 m
享有风景5
享有风景3
具有小范围的视图更改。在本文中,我们提出了V
VS-CNN模型可大范围地处理动作识别 范围。
前视图
2.4 m
享有风景7
2
享有风景6
2.4 m
2.5 m
前视图
查看1
查看2
- O
3.2 m
相关数据集概览
享有风景4
享有风景5
享有风景4 享有风景3
几个多视图人类动作数据集已经发布。温兰德等。[14] 发布了包含以下内容的IXMAS数据集:
- 拍摄设定A
- 捕获设置B和C
人体动作的RGB视频。该数据集是从五个固定的观点中捕获的,包含11个基本动作类别,每个类别由10个参与者执行。使用深度传感器Kinect V1,Cheng等人。[17] 展示了ACT 42动作数据集,其中包括14个日常动作的RGB和深度信息。邀请24个人执行每个动作,并从4个固定视点捕获数据集。Wei等。[18] 建立了一个多视图3D事件数据集,其中包括8个事件类别和11个交互对象类。使用三个固定的Kinect传感器捕获动作的RGB-D数据。邀请了8个人作为数据采集的参与者。Wang等。[19] 构造了Northwestern-UCLA Multiview 3D事件数据集,其中包含10个日常动作的RGB,深度和骨骼数据。每个动作由10位参与者执行,并从3个固定的视角捕获数据。Rahmani等。[30] 在4个视点中收集了UWA3D多视图活动数据集。数据集包含30个日常动作类别,每个类别由10个人执行。此外,Shahroudy等。[21] 提出了一个大型数据集NTU RGB D动作数据集。该数据集包括60项日常活动,总共邀请了40个人进行数据收集。使用3种Kinect传感器,可以从5个主要视角捕获数据集。通过更改摄像机到对象的距离和摄像机高度,记录了80个摄像机视图的动作数据。几乎所有现有的数据集都以有限的视角捕获了动作。它几乎不能支持针对HRI应用程序的任意视图动作识别的研究。此外,还有罕见的数据集,包括以很大的视角甚至连续变化的视角捕获的动作样本。为了提供用于任意视图识别的数据,我们模拟了HRI场景,并新收集了一个动作数据集,其中既包含在固定视点中捕获的动作样本,也包括连续变化的视图
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[234946],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。