手势识别系统中的参数估计与分类标识外文翻译资料

 2022-10-08 11:45:37

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


手势识别系统中的参数估计与分类标识

胡安·瓦克斯,IEEE学生会员,赫尔曼·严厉,IEEE会员,耶尔·俄旦,IEEE会员

摘要:

在本文中,我们研究了一个关于手势识别的问题。对这样一个系统的操作的参数的设置是一个非常耗时的工作,一旦由于设计者的不难烦导致参数的设置发生了错误,就会使系统性能受到很大的影响。在本文中,我们提出了通过使用邻域搜索算法来对系统参数进行设计的方法。从而将手势识别系统的设计问题转化为一个系统优化问题。为了测试该方法,我们将该方法运用到对一个运用FCM算法下手势识别系统参数的确定中。此外,我们还提供了一种基于线性规划和启发式FCM标记进行参数确定的方法。从而在短计算量内(在十次迭代运算内)对问题进行解决。通过对比该方法在三种手势数据库(BGU,美国手语和gripsee)和一个现实情况下手势库的性能对比来得出结论。

关键词:自动设置,簇标签,模糊C均值,手势识别,手势,邻域搜索,监督聚类,遥控机器人。

  1. 介绍

使用手势对机器人进行远程控制在人机交互领域是一个非常新颖的课题,他提供了一种更为自然、直观的方法来控制机器人系统。这种系统的优点是他使用一种自然的方式向机器人发送信息,如:左,右,等手势。在这项工作中我们使用表示静态手势的词汇来进行命令的下达。人机交互使用手势进行控制是一个巨大的挑战。这是对于手势识别的背景往往会很复杂,光照条件的变化、手势的改变的快慢、对运算时间的要求都会对手势识别进行限制。随着不断研究的深入,越来越多新的关于手势识别的方法被相继提出,其中许多方法都依靠了大量的计算和强大的计算机资源。这类新研究的发展现状如下。

[3]中研究人员开发了一种可以识别14种实时手势的一体化界面的应用系统。在[4]中,顾和Tjahjadi研究了一系列手部特征点检测的特征提取器。在[5]中,Abe等人研究了一种在图像属性上通过检测手部手指弯曲情况来进行手势识别的系统。在[6]的研究中使用了的三维(3-D)重建技术来进行手势的重新构建。在黄和帕夫洛维奇的研究[7]中对手势建模技术进行了的一个很好的总结。在[ 8 ]中提供了一种基于边缘识别的算法来对图像轮廓进行提取。在富兰克林等人的研究[9]中,他们通过使用一种基于英仙座的手势识别系统来对机器人进行基于手势的控制。在贝克尔等人的研究中[ 10 ]中,用户可以通过手势操作一个半自主的机器人。在Kortenkamp等人的研究[ 2 ]中向我们展示了一个能够通过粗略的三维模型来识别六种人手不同手势的系统。在奇波拉等人的工作[ 11 ]中提出了一种通过对于手势轮廓的识别来识别手势进而控制机器人的机器人导航界面。在郭等人的研究[12]中研究提出了一种通过颜色分割来进行手势识别从而控制车辆的方法。 在Waldherr等人的著作[13]提出了基于视觉的接口,的使用自适应双色跟踪算法对运动手势进行识别来机器人的方法。在杨等人的著作[ 14 ]中利用时滞神经网络识别二维(2-D)运动轨迹来对40美国手语(ASL)手势语言进行识别。阴和谢[15]建立一个利用神经网络对手势进行快速识别来进行人机交互的系统。triesch和Malsburg [ 16 ] 设计了一个基于现实情况下的强大的手势识别系统,系统识别的强度是基于检测目标手势颜色特征与手势库特征的弹性匹配来确定的。ghidary等人的研究 [ 17 ]中使用三个手势结合声音命令来控制机器人。在佐藤和Sakane的研究[18]中使用指向性手势在工作区内对一个机器人来进行控制。在最近的工作中,Heidemann和Ritter[19]使用手势来指导一个拟人化的机器人用机器手来对物体进行抓取。

在上述的研究中,大多数的研究选择从一个简单的出发点,通过使用手势分割或颜色变化来对手势变化进行检测。基于视觉的手势识别控制机器人在现实条件下进行交互已经在多种方法上获得了成功。对手部关键点的提取与相应复杂计算方式的匹配,对未来用手势进行人机交互的成功有重大的决定性作用。在本文中,我们将讨论影响人机交互成功与否的另一个关键因素,就是经常被忽略的手势模型的重新构建。我们提供了一种方法来对这种重建过程进行自动的校准。为了测试这个程序,我们使用由一个FCM分类器构成的手势识别系统。这个系统是一个机器人实时控制系统的一部分,关于这个系统的其他内容我们将在本文的后面讲诉。在本次研究中,由于重点将不会是图像处理方面的手势识别,所有在识别部分,我们使用了一个均匀照明组成的简单环境下的二维手来进行识别,图像由一个距手恒定距离的摄像机器进行捕捉。

尽管识别问题变得不在棘手,但这种涉及到手势识别和图像处理的同时校准的过程依然相当复杂。这种校准通常是临时的,只有通过反复的实验,才能将这两种识别因素独立区分。此外,这种方法往往会受到设计师的反感。同样重要的是当手势发生变化是,手势检测图像数据在不同机器内的传输速度。在这里,系统性能往往会选择牺牲手势识别系统的复位时间,因此,我们需要一个自动校准设置程序来将所有可调系统参数进行同时校准,同时处理。因此,手势识别系统的设计被转变成了一个设计优化问题。可以预见的是这里介绍的方法,在自动化方面有着更加广泛的发展前景。

在下面的部分中,我们将对图像处理技术进行讨论,随后将讨论无监督下的模糊C均值聚类算法和进行监督的必要性。在第三节中,我们描述了启发式聚类标识监督FCM算法。此外,我们将提出一种基于线性识别的手势特征点识别方法。在第四节中,我们会提出我们的相邻参数搜索算法。在第五和第六节中我们对这种算法的性能评估和讨论进行了描述。在最后一节,我们提出了针对这种算法结论以及未来研究的方向。

  1. 手势识别系统

在本次设计中,手势识别系统是由一个FCM手势分类器来进行图像处理特征提取操作。FCM聚类算法是图像识别方法中最常用的一种方法。虽然分类器的速度已经可以达到实时操作并具有相当的精度,但是选择使用FCM的原因是因为它有较小的数据采集次数和更短的培训时间。选择模糊聚类算法的另一个原因是相比于其他方法,它使得聚类算法精度下降,便于识别。经典的FCM算法仿照的是手部特征加权,同时使用一种在第三节讨论的新的聚类标记算法来进行监督。同样,本节也会对手势识别的参数估计问题进行讨论。

图1 手势语

图2 特征提取的图示:(a)边界框内的手势和(b) 对该手势的3*4块分区

A:特征提取

如图一所示,为了进行训练和测试,我们构建了一个由13个静态手势构成的数据库,并将其命名为BGU-R-DB。预处理的图像通过从背景中使用的阈值tau;进行检测以获得黑白图像下分割。使用的阈值是通过运用第四节内的参数搜索算法得到的,具体内容将在第四节具体讲述。通过使用标记组件算法,最大的组成部分(假设先验是手的姿势)是可以通过一个确定大小的边界框所包围的。在这里,我们的手势图像的背景是照明强度是恒定的。基于更复杂的背景识别可以通过其他的方法,比如Stern和Efros在[24]的研究结果。

边界框会对手的位置和大小进行确定,使得在对图像进行变化是不会改变手的位置。图像的特征向量由边界框的高宽比和并且每个块的平均强度(白色像素分数)来确定。让RB和CB表示行和列,对其分别编号来进行对图像的划分。这样会产生一个长度为V = 1 Rbtimes;CB的特征向量,记为F =(f1.....fi...fv)。第一个特征表示包围盒的长宽比,并且剩余的代表索引行从左到右的索引行。

例如(图2)的合成特征向量是:(176 52 2 2 68 249 171 16 3 253 13 188 102)。我们可以看出,所有的特征值都在0到255的这个范围之内。我们可以看到该图像的长宽比为为102,块3和4是接近零(黑色),和块6和11是接近255(白色)。

令W =(w1...Wi...Wv)代表权重向量,Wi是对于特征i的权重,所有的权重相加之和为1。

v

wi = 1,0 le; wi le; 1

(1)

i=1

令x=(W1 F1...Wi Fi...Wv Fv)为一个加权特征向量(也可以称为数据模式)。

B:特征加权FCM手势分类

在特征加权FCM算法中,每一个加权的特征向量表都示每个手势。一组加权的特征向量被聚集在一个识别系统中的后续使用。值得注意的是,所获得

的特定的聚类的数目取决于上的簇的数目和特征权重的各自的值。让XK在训练集的手势的k样本加权的特征向量。鉴于Q数据模式X = { x1...xk...xq},和一个固定的簇数C,FCM算法发现VI(原型加权特征向量聚类I),和micro;IK(在与集群xk的隶属程度)。这是通过最小化成员加权组内加总平方误差的目标函数,其中m是每个模糊隶属度值的加权指数。在这个应用程序中,应该设置的簇的数目,或等于在词汇中的手势的数量。

在FCM算法收敛后,根据每个加权特征向量xk被发现率分配一个集群mu;i k= Max{micro;ik , i = 1, . . . , c}.这种简单的方法被选择以减少计算用于实时操作的复杂性,并降低所采取的大规模验证研究的时间。另一种模糊量化方法是由卡拉雅尼斯和排在[25]中提出的。他们提供了一个更复杂的方法,从模糊模式(在每个训练向量可以分配到多个集群)到清晰模式(在那里一个训练向量可以被分配到只有一个集群)的过渡。该方法是基于一个迭代收缩的模糊分配的集合。一旦集群被标记的手势类,一个新的姿态可以通过选择群集的成员值是最大的分类。

C:参数估计、

特征加权的FCM算法实现对集群的数量选择的相关问题,对“最好”的特征权重的选择,和类的标签聚类。在下一节中讨论了群集标记和最优权重的问题,为k-均值的聚类问题与由哈和格勒[ 26 ]利用穷举搜索结论相似。我们嵌入搜索在第四节讨论高效参数估计附近搜索(NS)程序中更有效的权重。作为一个侧面说明,特征加权实际上是特征选择的推广。提供了自由参数集之外特征权扩展到包括FCM变量,例如,一个模糊加权指数,群集的数量,和图象处理变量等。例如,黑白阈值和图像分区解析。共同求解由NS算法设置此扩展参数正是本文第四节的主题。

  1. 通过启发式的标记的监督FCM聚类算法

FCM聚类算法提供了一套基于模糊聚类的手势训练,然后模糊的手势会被被转换成一个清晰的聚类。这些集群必须使用一个手势名称标记。这样,在效果上,使FCM聚类算法是“监督”。通常情况下,集群的标签是没有问题的使用最流行的类出现在每个群集作为它的标签,即“最大规则”。这工作得很好时,集群内的物体接近均匀。然而,对于那些严重聚集的样品,该方法失败(参见例子第三节-D)。严重的集群样本是典型的情况下,在参数搜索初始化(第四节)所面临的典型案例。因此,它是有责任制定一个好的聚类标签的方法。一个有效的集群标签必须满足2个条件:(1)每个群集接收一个独特的标签(一个手势的名字);(2) 每个标签必须被分配给至少一个集群。为了评估一个有效的聚类,一个需要一个已知的地面真理分类,即标记的手势类数据。

A:heuristic标记算法(算法1)

这是一种快速标签启发,命名为算法L, 负责寻找最优或最佳的标记。给定一组清晰的集群和G类标记的手势,一个矩阵N的手势群。每一行i对应于已知的类的i的姿态,和每列j对应于一个簇。其代表具有从出现在簇j中的标记的训练集的已知i类手势的样本数。手势簇矩阵的N的例子在表I中示出。

启发式算法——算法L

步骤一:对于N中的每j列,找到最大{nij |forall;i} = ni j,标记位置(i j),这是对集群每一个标签的赋值。

步骤二:令Li为第i行的标记位置。对于所有的Li,从Li=0开始,删除第i行和第j列的所描述的相关的位置,让该组的其余列为C集群,把i分配给j。

步骤三:让R等于Li=0的那一系列行(如果R= phi;,跳转至第五步),计算移动的第j个列标记的子矩阵(R,C)的成本。对于所有的(i, j) isin; (R, C).,令nij minus;nij = macr;nij。

步骤四:找到最小的{nmacr;ij |forall;(i, j) isin; (R, C)} = macr;nilowast;jlowast;,为防止重复,选择左上角的单元格。删除标记

位置(i, jlowast;).转移到位置(ilowast;, jlowast;)。令Lilowast;= 1.,返回到步骤二。

步骤五:停止变换,对于所有标记的位置(i, j),分配标签i到集群j。

图表一

一种实际的手势集群N

算法L停止于一个具有有限数目有效标记的步骤,因为矩阵(r,c)是有限的,在步骤四中,一个簇被永久标记,并且行和列是由(r,c)中除去。只有一个标记会保持在整个算法的每一列。在结束时,没有Li=0的行。在n=手势类和m=集群序号的位置,算法L的计算复杂度为0 (nm log(nm))。

B:一个优化算法(LP-L)

要测试启发式的Alg-L,其性能最优的标记必须是已知的。一个最佳的标记是一个对训练集的分类器的精度最高在所有可行的(有效的)标号。这个问题转化为一个线性规划,如果手势类标签分配给集群J和零,则LP-L.定义赋值变量xij=1。否则,若所有的集群都非空的,并为每个手势型样品中出现的至少一个集群。分别记c和g为簇集和手势类标签。

最佳标记算法LP-L

约束(3)确保每一个集群j有精确的接收一个标签。约束(4)确保每个标签被分配最少一个集群。在最佳的解决方案,分配—与xi

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[151784],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。