英语原文共 14 页,剩余内容已隐藏,支付完成后下载完整资料
摘要
在本文中,我们介绍了一个在静止的背景下用手势识别系统来识别连续手势的方法。这个系统由四个模块组成:手势的实时跟踪和提取,特征提取,隐马尔科夫链(HMM)的实践以及手势识别。首先,我们应用一个对手势进行实时跟踪和提取的算法来跟踪和提取一个动态手势区域,然后我们使用傅里叶描述子描述空间特征并且使用动作分析来描述时空特征。我们结合输入图像序列的空间和时间特征作为特征向量,经提取特征向量后,我们应用HMM来识别输入手势。被识别的手势分别对应不同的HMM模型,最高得分的模型表示相应的手势。在实验中,我们使用我们的系统测试了20中不同的手势,并且识别率超过90%。
关键词:手势识别;隐藏马尔可夫模型;手部跟踪
1.引言
在人类中,手势一直是最自然和普遍的交流媒介。手势识别的研究已经获得了广泛的关注,因为他可以应用于人机交互的接口和虚拟环境中。最近关于手势接口的技术分为两类:基于手套的方法和基于视觉的方法。基于手套的手势接口要求用户穿戴笨重的设备,并且通常会携带该装置连接到计算机的电缆。有许多基于视觉的技术,例如基于模型和基于状态的技术,这些技术已经提出来用于定位对象和识别手势。近来,已经有越来越多的手势识别的研究采用基于视觉的方法。
Huang等人使用3D神经网络的方法制定了一个台湾手语(TSL)的认可,这个系统能够识别15种不同的手势。David和Shah提出了一种基于模型的方法,这种方法使用了状态机来模拟一个普通手势的四个不同的特性。手的形状通过向量的列表描述,然后用所存储的矢量模型匹配。达雷尔和彭特兰[8]提出了时空手势识别的方法。使用视图模型表示的符号来表示,然后使用动态时间扭曲来匹配存储的手势模式。Starner等人,描述了一个可扩展的系统,这个系统使用一个彩色摄像机实时跟踪手势并且解读美国手语(ASL)。他们用隐藏的马尔科夫链(HMM)识别一个完整的句子,并且使用HMM证明了识别一系列复杂手势的可行性,而不是使用仪器手套,他们使用基于视觉的方式来捕捉手的形状,方向和轨迹。基于视觉的方法选择使用三维输入数据作为模型输入的特征向量,其他的基于HMM的手势识别系统也已经开发出来了。Liang等人开发一个基于TSL的手势识别系统,这个系统需要使用数据手套来捕获10个手指关节的弯曲,手掌的卷和其他3D运动信息。
Cui和Weng开发了一种非基于HMM得系统,这种系统可以在复杂的背景环境下识别出28种不同的手势。该系统的系别率为93.1%,但是它依赖于一个缓慢得分割方法,这种方法对于分割一张图像要花费58.3秒。Nishikawa等人提出了一种新的描述和识别人类手势的方法。该方法是基于手势运动方向的变化率,这种变化率是利用单眼动态图像的光流来估算出来的。
Nagaya等人提出了一种方法,这种方法使用手势的轨迹的近似形状在由连续的帧图像图案之间的内积所限定的图案空间来识别手势。Heap and Hogg提出了使用变形模型来跟踪手势的方法,这种方法同样适用于一些列复杂的背景环境。可变形模型描述了一只手的姿态和某些变化而不是仅仅识别不同的手势。Zhu和Yuille提出了一种数据统计框架,其使用主成分分析和随机形状文法来表示和识别动画对象的形状。它被称为灵活的物体识别和建模系统(形式)。Lockton等人提出了一种实时手势识别系统,这种系统能识别由46 个ASL字母拼写的字母和数字。但是所确认的手势是“静态手势”,意味着手势动作不能移动。
不同于Lockton的方法,本文介绍了一个可以识别动态手势的手势识别系统,手势是在复杂背景下单独进行的。不同于以往的基于隐马尔可夫模型的手势识别系统,我们的系统不使用仪表手套,也没有任何标记,但会使用二维视频输入。我们的系统跟踪移动手势和分析了手部形状变化以及运动信息,把这些作为输入输入到到基于HMM的识别系统中。该系统包括三个模块:一个实时的手势跟踪,特征提取,隐马尔可夫试验,和基于隐马尔可夫模型的手势识别。首先,我们介绍了一种实时手势跟踪技术,它可以跟踪移动中的手部,然后从复杂的背景下提取手部的形状。作为一个实时图像处理子系统,这是一个简单的和可靠的方法,其中包括五个基本互补的图像处理:运动检测,肤色提取,边缘检测,无失真运动,和背景衰减。
我们应用FD来表征空间信息和使用用于运动分析的光流法来表征时间信息。将输入图像序列的FD和运动信息作为特征向量。对于这些特征向量,我们可以训练我们的系统使用隐马尔可夫模型的方法,这个系统是用来识别输入的手势的。在训练阶段,我们采用HMM来为每个不同的姿态描述模型参数项。手势是分别对阵不同的HMM识别。以得分最高的模型作为公认的手势。我们的系统包括20个不同的HMM模型,这些模型是用来测试20种不同的手势。实验结果表明平均识别率在90%以上。
图1显示了我们的手势识别系统的流程图,由三个阶段组成:特征提取阶段,训练阶段和识别阶段。我们结合FD和运动作为特征向量来描述运动目标的特征。每个特征向量由符号表示。每个符号对应于指定的分区通过对培训的所有可能的手形手势的特征矢量的矢量量化算法生成。。对于每个特征向量,一个符号被分配。在我们的系统中,我们代表的序列的符号的输入图像序列。在训练阶段,我们需要为每个手势建立一个隐马尔可夫模型。在识别阶段中,一个给定输入的手势是通过用不同的模型参数每HMM测试。具有最大似然函数的HMM的结果被识别为识别的手势。
图1手势识别系统的流程图
2.手势跟踪和手部形状提取
这里,我们提出了一种实时手势跟踪的方法,在复杂的背景下这种方法具有很好地鲁棒性和可靠性。为了跟踪移动中的手部并且可以快速而准确的提取手部的形状,我们需要考虑计算机复杂度和鲁棒性之间的平衡。
2.1特征提取
在我们的系统中,对象的运动为对象的定位和提取提供了重要和有用的信息。为了找到运动信息,我们假设输入的手势是非平稳的。当物体在时空中(图像序列)移动时,运动检测器能够通过检查局部灰度变化来跟踪移动的物体。设序列的第i帧,并且是第i帧和(i 1)帧之间的差分图像,其定义为
(1)
其中是阈值函数,和全部为160times;120的图像,并且是二维图像,其定义为
(2)
(1)阈值。提取目标运动区域,我们可以使用在不同帧间的阈值来提取复杂背景下可能运动的区域。我们发现,常规的阈值的方法,如Ostu的阈值法,不适合于检测运动差的情况。相反,我们使用一个简单的阈值技术来提取运动区域。运动检测的阈值被定为,其中是捕获图像的平均亮度。图2显示,如果没有显著的动作,OSTU阈值的方法会产生大量的噪音。我们选择加权因子为0.2,因为我们不需要高精度的分割图像。我们的阈值技术对手部运动的速度不是非常敏感,所以,我们的方法比Ostu法更稳定。
图2(a)原始图像(b)设置阈值(c)应用Otsu法。
- 肤色检测。皮肤可以通过颜色信息而很容易地被检测到。首先,我们使用约束条件即,Rgt;Ggt;B来寻找可能包括很大范围的皮肤颜色区域,如红色、粉色、棕色和橙色。因此我们会找到比皮肤区域更大的区域。然而这些满足我们约束条件的非皮肤区域由于没有运动信息而被排除,并且橙色中的e,g,a区域将不会被误认为手的区域。其次,我们可以从手部区域中获得一些样品颜色。为了找到皮肤区域我们会让区域中的颜色和预先存储的样品颜色来进行比较。如果他们是相似的,那么该区域肯定是皮肤区域。手部区域是通过前一帧中的手部跟踪过程来获得的。图3显示了我们的皮肤检测结果。矩形区域是前一帧中的手部区域。最后,我们可以消除一些与皮肤相似的颜色,例如橙色等并把皮肤颜色的图像表示为。
图3 (a)原始图像(b)提取的皮肤区域,满足和(c)所提取的皮肤区域的颜色与样本皮肤颜色。
- 边缘检测。边缘检测被用来分离手部区域中的肘部区域。很容易发现相比于手掌区域手臂部区域有更少的边缘。在这里,我们用一个简单的边缘检测技术(如边缘算子)获得不同方向的边缘,然后选择每个像素的绝对最大值,以帧的形式作为的边缘图像。图4显示手臂区域的边缘比手掌区域的小。我们结合边缘、运动、肤色区域的信息来分配手部区域。
图4(a)的起源框架(b)的边缘检测结果
(4)运动、肤色和边缘的结合。手势信息包括运动、肤色和边缘特征。我们使用逻辑“和”来结合这三种类型的信息,即
(3)
这里,和表示为运动,肤色和边缘图像。合并的图像可以被提取的许多功能。因为不同的图像处理方法提取了不同种类的信息。每个图像由不同的特征区域构成,如运动区域,皮肤颜色区域和边缘区域如图5所示。
图5.手势信息(a)原始图像(b)运动区域(c)肤色区域(d)边缘区域
如图6所示结合的区域。合并的图像由一个大的区域中的手掌区域和一些小区域的手臂区域所组成。我们可以把这2个区域分开来分配到手部区域。
图6.结合区域
(5)区域标识。一个简单的区域识别方法是用一个唯一的整数来标记每个区域,这个过程被称为标记过程。标签后,最大的整数标号表示图像中区域的数目。标签处理后,小的区域可以被视为噪声,然后删除。图7(a)显示标签结果,图7(b)显示手部区域的中心位置。我们用来表示帧i中最大的标签区域。
图7 (a)显示标签结果(b)显示手部区域的中心位置
2.2鲁棒性和低复杂度。
使用运动和颜色信息是不够的,并且手的形状不总是最大的标记区域。如果有其它肤色物体在快速的移动,跟踪过程可能会失败。我们要利用平滑运动的优势来约束轨迹判断,然后使用背景减法找到前景对象,并最终确定手部区域。
2.2.1手势轨迹的判断
基于这样的假设:手对象在两个相连帧之间平滑移动,我们开发了一个轨迹的判断算法。我们假设手的移动速度是恒定的,对于当前帧,我们得到了手部提取区域的中心点。我们假设光滑的轨迹,使的变化在一定范围内受到限制。如果的变化超过了一定范围,我们增加错误的(或颠簸的)位置计数器,i,e,WC=WC 1,否则我们设。在避免轨迹错误的同时,我们检查是否WCgt;3.如果不是手势被认定为一个对的位置,并且我们可以设置。如果WCgt;3,手势可能会被认定为错误的位置,因此我们转换正确的位置,重设WC=0,并且进行下一帧。
2.2.2处理ROI
图8显示了我们手势跟踪系统的流程图。在前一节中,我们提到了如何生成五个图像帧:。这三个功能块表示运动检测,边缘检测,肤色检测,可以并行操作。为了减少计算复杂度,我们不处理整个图像帧,但专注于感兴趣区域(感兴趣区域)。例如,一个ROI是一部分,相应的,我们使用第一个ROI来获得。其它的ROI也同样是的一部分,相应的。类似的,我们处理第二个ROI来获得。图9显示了运动检测、肤色检测和边缘检测的一步一步处理。我们可以大大降低系统的计算复杂度。
图8手势跟踪系统的流程图
图9 三个功能模块:(a)运动检测(b)肤色检测(c)边缘检测。
2.2.3本底扣除。
对于手势的识别过程中,我们需要更多的手势信息。我们用一个简单的背景减法技术获取手势的形状。我们用第一帧来创建一个背景模型。图10显示了前景区域,图11显示了程序获得前景。为了更新我们的背景模型,我们运用当前帧和前景区域来适应我们的背景模型。我们已经产生了两种不同类型的前景区域,一个是这个是用来获取手势区域的。另一个是,用于背景的更新过程。有一个紧凑的形状,所以它可以用来获取手部区域。因为对前景和背景的边界误差小,所以我们不使用来更新背景。我们运用更新背景。只有当时才更新背景。图12显示了这些前景区域的差异。这个背景更新方程为
(4)
我们逐渐的更新背景,并且加权系数w为0.1。这个更新过程对于一个较小的w有更大的可靠性。最后,我们有前景区域,但这并不真正表明是人类的手。我们需要应用皮肤颜色分析和手部区域位置跟踪来正确提取手部区域。图13显示了手部手势区域提取过程的结果。
图10背景减法的结果
图11背景减法流程
图12不同类型的前景:(a)原始图像 (b)前景FG1手势跟踪 (c)前景FG2更新背景。
图13 肤色和手部姿势相结合的前景区域
2.2.4手势区域的局部跟踪
要找到一个更精确的手部区域,我们需要使用前景区域的信息。使用运动,肤色和边缘信息可以发现手部的位置。有时候,所确定的位置将不会在真正的手部区域的中心。这是因为所提取的信息位于移动物体的边界上。因此,局部细化是必要的。手部区域跟踪的整体系统有2个阶段:第一阶段是对运动信息的关注,而第二阶段则着眼于前景信息。局部跟踪处理如下:(a)选择靠近中心的前景和肤色
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[151840],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。