手势识别:手势分割问题外文翻译资料

 2023-03-14 18:42:34
  1. 外文资料译文:

手势识别:手势分割问题

摘要:将手势分割问题作为视觉手势识别的第一步,即从真实图像序列中检测、分析和识别手势。我们的手势分割方案由两个步骤组成:空间域的精确手势轮廓跟踪和时间域的连续手势轮廓跟踪。给出了实验结果和实现问题。

关键词:手势识别,主动轮廓

1.介绍

自动视觉手势理解可以作为一个非常实用的工具,例如与智能机器(如机器人)交互,或在手语理解的情况下服务于社会目的。

人机交互中最常见的方法是基于简单的设备,如键盘和鼠标。尽管这些都是为与用户进行简单而容易的交互而精心设计的,但它们在以合理速度输入大量数据方面存在固有的困难。随着计算机在存储能力和处理速度方面的急剧发展,这种限制变得更加明显。出于这些原因,我们需要新的输入方法,在更大程度上吸收人们交流的方式,即语言和手势。手势可以很好地作为一种额外的方式向计算机、机器人等提供指令。

另一方面,手语理解问题不仅具有挑战性,而且能帮助聋哑人在一般公共服务中获得直接、离散和有效的服务,因此也引起了社会的广泛关注。我们设想了一种视觉手语解释系统,计算机将自动将客户的手语翻译给不懂手语的员工。

手势识别问题涉及从真实图像序列中检测、分析和识别手势。随着嵌入式系统技术的出现,所需的硬件设置既简单又便宜:两三台相机,一个取景器和一台电脑。单台相机可能还不够,因为手势可以使用人手的所有自由度,而且每台相机都能提供额外的视角。

手势识别是一个非常复杂的问题,直到最近(过去四年)才引起了一些关注。最初考虑的是仅适用于实验室环境的设置,即佩戴有线手套,将手指运动转换为电压信号发送给计算机。显然,这种设置不适合广泛使用,因为电线的长度和设备的笨拙形式施加了限制。后来,手套被换成了相机和抓框器。目前的研究集中在使视觉手势识别系统尽可能的高效和健壮。

在本文中,我们提出了一种手势分割的方法,作为解决整个问题的第一步。由于手语的手势具有动态特征,即包含手部运动,我们的手势分割方案由两个步骤组成:空间领域的精确姿态轮廓跟踪,以及时间领域的连续跟踪。

在第二节中,我们介绍了手势识别系统设计的主要难点。在第3节中,我们描述了手势分割的方法。接下来的两部分将包含实验结果和实现问题。最后对今后的工作提出了建议。

2.手势识别问题的难点

建立一个健壮的手势识别系统所遇到的问题是众多而复杂的。与以下内容有关:

  • 图像分割。目标是在前景上只保留手势轮廓。表示必须是准确的,这意味着我们必须成功地处理3d手部运动和闭塞等问题。如果只使用少量的摄像机,那么就会产生隐藏点,导致性能下降,因为手势词汇非常广泛,而且某些手势之间有很小的差异。
  • 对象分析。一种表示手势的方法是通过特征向量,即一组定义良好的原语(几何等)。特征向量应该作为一个准确和紧凑的表示。因此,特征选择是依赖于应用的,设计者必须花费大量的时间研究每个可能的特征向量的性能。最终的选择可以基于统计和机械性能度量:最小化类内模式变化(紧凑类),最大化手势类模式变化(可分离类)之间的手势类模式变化(可分离类),最后,实现未知模式的鲁棒分类。手势是一种复杂的模式,因此分类器需要详细的表示(高维特征向量),以进行正确的决策。例如,两种手势可以有相似的形态,但手的扭转角度不同。同样在手语中,词汇量更大,有些手势需要双手的使用,在某些情况下需要双手的运动。
  • 模式识别。我们提出了三个问题:

(i)两个连续手势之间的辨别差距不易确定。在光学字符识别(OCR)中,一个单词与前一个单词之间至少间隔一个空白字符。在技术术语中,“一个空白字符”是指带有背景强度值的像素块。对于两个连续手势之间的分离间隔的相似定义是不容易定义的,特别是对于时域图像序列。

(ii)每个传入的模式(手势)都必须用大量的类进行相似性测试。在邮政编码识别系统的情况下,如果邮政编码只包含数字,则测试模式是否匹配10个类(0-9)。以我们的手势识别系统为例,该系统旨在进行手语理解,词汇表的每个手势都定义了一个新的类。考虑到用自然语言描述的概念的广泛范围,问题的实际维度就变得显而易见了。

(iii)手势识别程序具有很强的概率性。任何传入的模式都不会与存储的类相同。就像在写作中一样,人们发展了自己复制标识的方式。因此,在做出最终决定[1]之前,必须考虑到全面的统计考虑(即后验概率)。

3.手势定位与在线识别

我们将手势识别的过程分为四个阶段,手势定位、手势跟踪、手势分析和手势识别。在本文中,我们只讨论前两个阶段:

3.1阶段1手势定位

这个阶段必须找到输入图像中包含手势的部分。最初的目标不是产生手轮廓的精确表示,而是分配具有一些粗糙特征的图像的一部分,例如,两个或三个完全伸展的手指、手臂和手掌的一部分等。我们提出了一种手势定位方案,其中可变形模板匹配技术与训练算法相结合,使得系统开始搜索最可能的模板。

图1.简单的手模型

3.2手势定位–步骤1。模型结构

使用的人手模型是典型解剖学原型的简化版本,因为它用长方形表示手指,用正方形表示手掌(图1)。这个模型的简化假设没有指关节(即手指的行为像刚体)。手模型可以是自由草图,也可以是位图图像。我们基于以下思想选择了第一种形式:我们的手模型的控制点是对应的几何图元的边缘。这个模型的主要属性是手的所有变换都完全由应用于控制点的变换来描述。在计算机图形学中,存在大量不同的人手模型。由于这些是三维模型,它们更准确,但同时更复杂的诱导,除了从转换和变形。

3.3 手势定位–步骤2。模型匹配

图像必须重复扫描,直到与一个可能的模型匹配。在第一次扫描中,人手模型具有不可变形的形状,这意味着没有进行平移、旋转或缩放。在大多数情况下,匹配是在一长串扫描之后建立的(图2)。在每次扫描开始时,模型通过变换矩阵变形,该变换矩阵包括表示三个基本刚性变换的项。具体来说,新的人手模型是初始形式和变换矩阵的乘积。

图2. 手势定位-模板匹配阶段。

4.手势定位,计算时间问题。

因为实际的手势识别方案应该实时实现,所以顺序测试变量的所有值的方法是不令人满意的。实际上,问题更复杂,因为在初始模型的转换过程中,有三个向量变量(平移、旋转和缩放)独立地改变值。为了尽量减少计算时间,我们决定用智能方案取代试错逻辑。这个想法很简单:在最初的人手模型的所有可能变形中,有一些更高的概率会出现。在手势识别系统测试之前,我们向学习系统输入大量手势,以便在经过一些处理后,它能够理解哪些更有可能。这样,匹配过程可以从出现概率最高的一组转换开始。在这个范围内,我们选择了一个三层全连接前馈神经网络,它使用反向传播算法来调整其权重。我们不会做更多的分析,因为实验阶段还没有结束。

4.1 第二阶段。手势轮廓跟踪

主动轮廓,也称为蛇,用于动态轮廓跟踪。一系列涉及手势的实验使我们得出结论,活动轮廓是最可靠和持久的边缘检测器之一。如果预处理是正确的,并且“蛇”包围了正确的对象,轮廓跟踪将非常准确。活动轮廓也可以跟随直线、圆和圆弧作为角落和阴影。由于人手具有复杂的几何形状,尤其是在手指与手掌相遇的地方,我们决定将活动轮廓包含在一个简短的手势分割候选列表中(图3)。

图3. 手势轮廓跟踪。

在我们的最终决定中,有利于活动轮廓的是它们检测运动和记住它们先前位置的能力。强度等级特征不足以分割真实图像中的感兴趣对象。应考虑其他自然或用户强加的特征。例如,自然特征是在标志实现期间手的移动,而用户强加的特征可以是戴着手套的手,因此由于纹理,它不同于图像的其他部分。过多的实验使我们认识到,强度值和运动检测的结合是非常有希望的。对于许多细分工具来说,要实现这一点,我们必须遵循三步程序:

(I)用边缘检测器选择图像边界

(ii)通过运动检测技术,确定图像的所有运动部分

(iii)通过组合两种信息提取运动边界。

另一方面,活动轮廓具有内置的运动检测能力,因为它们的偏微分方程模型的一个项结合了速度矢量,使得仅提取运动边界成为可能。

支持活动轮廓进行手势轮廓跟踪还有最后一个原因:活动轮廓具有记忆性。这意味着,下次他们试图在图像序列中定位手势时,他们将记住前一帧,而不是搜索整个新图像,他们将被限制在先前轮廓跟踪周围的区域中。这是活动等高线数学模型的偏微分方程类型的直接结果。偏微分方程的数值解需要两种条件:初始条件和边界条件。计算从边界表面和初始时间开始一小步一小步地传递到空间域的内部以及后来的时间实例,从而基于先前的经验给出下一个运动的提示。

另一方面,当感兴趣的对象位于远离“蛇”的初始位置时,活动轮廓表现出较差的性能。例如,当“蛇”的初始位置仅包围手势的一部分时,或者当它位于手势内部的某个地方时,可能会错过所需的轮廓,因为它倾向于收缩而不是扩张。这就是为什么我们在手势识别方案的第一阶段,手势定位中加入了确保初始蛇形曲线从很小的距离包围感兴趣的对象。

图4. 轮廓缺失一例。

5.讨论和今后的工作

在本文中,我们介绍了手势识别的第一步。手势定位阶段还有很多工作要做。我们目前使用神经网络来处理这个问题,这是一个在优化、模式识别和机器学习领域非常流行且经过成功测试的工具。数据识别问题的一种更经典的方法是聚类技术。非常复杂的机器学习应用程序使用最近邻域规则有效地处理训练和测试数据。除了分类、拒绝选项和类库的动态管理之外,它们还提供了其他功能。

手势分割后,下一步是手势分析。我们打算找到一个能准确表示每个符号的特征向量。此外,如果这些特征是平移、旋转和缩放不变的,我们可以返回到手势定位阶段并重新检查该过程。有了这种特征,对图像进行一次搜索以进行模型匹配就足够了。统计模式识别理论包含许多用于全局特征选择和性能测量的技术。

我们认为手势分割和分析是构建手势识别系统的最具挑战性的任务。最后一个阶段,即手势识别,是一个相当合适的问题。应用程序的实时性带来的一个问题是对类数据库的访问时间。如前所述,在手语理解等应用中,类的数量非常多。手语词汇中的每一个手势都被归类为一个新的类别。只有当分类器能够访问具有多个队列和入口点的专门设计的数据库时,它才能检索到快速匹配。随机访问数据库提供了这些优势。预计这个系统将在医疗保健,

外文原文资料信息

[1] 外文原文作者: M. K. VIBLIS and K. J. KYRIAKOPOULOS

[2] 外文原文所在书名或论文题目: Gesture Recognition: The Gesture Segmentation Problem

[3] 外文原文来源: Journal of Intelligent and Robotic Systems volume 28, pages151–158 (2000)

网页地址: https://schlr.cnki.net/zn/Detail/index/SSJD_01/SSJD00000959411

外文原文资料:Gesture Recognition: The Gesture Segmentatio

剩余内容已隐藏,支付完成后下载完整资料


英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[596237],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。