多模态自然人机交互技术研究及应用外文翻译资料

 2022-10-26 10:15:30

英语原文共 32 页,剩余内容已隐藏,支付完成后下载完整资料


Multimodal Human Computer Interaction: A Survey

Alejandro Jaimes*,1 and Nicu Sebeamp;

*IDIAP, Switzerland

ajaimes@ee.columbia.edu

amp;University of Amsterdam, The Netherlands

nicu@science.uva.nl

多模态人机交互

Alejandro Jaimes*,1 and Nicu Sebeamp;

*IDIAP, Switzerland

ajaimes@ee.columbia.edu

amp;University of Amsterdam, The Netherlands

nicu@science.uva.nl

摘要

本文从计算机视觉领域的角度讨论一些主流的多模态人机交互设计的方法。特别地,我们关注身体,手势,目光和情感交互(面部表情识别和音频中的情感)。我们讨论用户,任务建模和多模态融合,突出多模态人机交互技术开放挑战性的问题和新兴的应用领域。

1背景

多模态人机交互技术设计到很多领域的技术如,计算机视觉,物理学,人工智能等。我们研究多模要人机交互技术是为了让计算机更容易让人们使用,这样一个人机交互系统总是会包含三个方面:交互的用户,交互的系统,交互的方式。考虑到这些因素,很明显多模态人机交互技术是一个交叉学科的课题,要求交互式系统的设计者必须要掌握很多领域的专业知识如:物理学,认知科学,社会科学,人类工程学,图形界面设计,计算机科学等。

多模态人机交互技术的这种多科学的特性激励了我们的这个调查研究。本文不是讨论多模态人机交互技术的计算机视觉技术,而是从计算机视觉领域这个角度讨论多模态人机交互技术设计的方法和问题。

1.1 动机

在人与人交互的过程中,解释视听混合的信号是很重要的。很多领域的研究者已经意识到了这一点,由于一些技术的进展(视听处理技术,计算机视觉技术等),和硬件技术的进展(廉价的摄像头和传感器),多模态人机交互技术的研究已经取得了重大的进步。不同于传统的应用程序(单一的用户通过鼠标和键盘跟计算机进行交互),新的应用程序(如智能家居,远程协作,艺术等),几乎不仅仅是通过命令,还会涉及到多用户。在过去一些年里,计算机的处理器,内存,处理速度,以及高效的输入输出设备取得的重大进展让普适计算成为现实。不同的计算设备具有不用的计算能力和存储能力,一位置计算可能包含一些独特的交互方式。其中一些方式有手势,语音,触觉,眼动等。就像人与人之间的交互,然而有效的交互也会发生这些这些混合设备的融合。

多模态的交互方式被证明有很多优点:可以阻止错误的发生,鲁棒性的接口,帮助用户改正错误,更多的通信宽带,在不同的环境下有不同的交互方式。本文主要讨论多模态人机交互技术涉及到的必要研究领域,基于我们的调查研究讲述当前技术发展的最新水平。大的身体动作,手势,注释被用于情感分析任务和各种应用程序。既然多模态人机交互技术是一个活跃的研究领域,我们不会倾向于做一个全面的调查。本文的主要贡献是介绍多模态人机交互技术的计算机视觉技术。

1.2相关调查

大量调查已经被发表在诸多领域,如:人脸检测,人脸识别,面部表情分析,手势识别,人类情感分析,音视频语音识别,眼动跟踪。本文讨论之前的调查未涉及的工作,扩展之前未涉及到的领域,讨论新兴的领域,同时突出主要的研究问题。

1.3总览

后面的文章结构如下,第二部分主要介绍多模态人机交互技术,第三部分介绍核心的计算机视觉技术,第四部分介绍高校的HCI,第五部分介绍模型的建立,多通道的融合,和数据的收集,第六部分讨论相关的多模态人机交互应用,第七部分进行一个总结。

2 多模态人机交互技术总览

多模态这个术语被用在多个科学领域里,我们感兴趣的是,一个多模态人机交互系统是一个可以相应多个通道的输入相融合的系统(比如语音,手势,文字等)。我们采用一种以人类为中心的方法,根据人类的感官和一些计算机输入设备来测量人体的一些数据如血压等。人类的感官有视觉,触觉,听觉。嗅觉,味觉。计算机的一些输入设备可以对应人的一些感官,如摄像头(视觉),触摸屏传感器(触觉),声波传感器(听觉),嗅觉传感器(嗅觉),甚至还有味觉。其他模式的计算机输入设备可能对应多种人类的感官,或者不对应人类的感官,如键盘,鼠标。

在我们的定义中,输入这个词是很重要的,在实践中和大多数的与计算机的交互都涉及到多种模式。举个例子,当我们在按下键盘通过键盘向计算机输入数据的时候,其他人可能正在阅读我们的输入,并且定位到你下一个按键。因此人们的所做的和计算机视为输入的是不同的。

在人机交互系统中,多通道人机交互技术可以用来构建成不同类型的接口。

3 以人类为中心的视觉

我们使用以人类为中心的视觉讲计算机视觉技术进行分类,通过不同的肢体语言加以区分,如大规模的人体动作,手势和目光。

一般来说,多模态人机交互技术的基于视觉的人类情感分析分为四个阶段,第一阶段是运动分割,第二阶段是对象分类,第三阶段是跟踪,第四阶段是解释。虽然有一些方法采用几何模型来模拟人的肢体,有一些方法是基于外部特征。第一种方法,外部的标记通常用来估算身体的姿势和其他相关的参数。标记可以使准确的,可以用过对服装的限制来达到校准,所以在一些应用程序中是不可取的。此外,尝试一些适合身体的几何形状将会使计算复杂度提高,这样的方法不适合实时处理系统。基于外部表征的方法,不需要标记,但是需要训练,这样的方法少了很多的限制,因此更可取。

接下来我们讨论一些具体的技术如肢体,手势和凝视。情感分析的步骤是类似的,因此下面的讨论有些重复。

3.1大规模身体动作

在很多多模态人机交互应用程序中,对大规模身体动作的跟踪(如头,胳膊,躯干,手势)对于解释姿势和运动是很重要的。然后这一领域已经有广泛的研究,本文只是进行简要的介绍。

大规模人体跟踪的问题包括是否采用3D或者2D技术,所需的精度,阻塞和其他限制条件。接下来我们要讨论的关于手势识别的问题同样适用于人体跟踪。

3.2手势识别

尽管人与人交流姿势来源于身体各个部位,如眉毛,手,整个身体。但是计算机视觉领域研究人员采用这个术语专门用来指手势识别。相应地,我们也采用这个术语,同时我们也关注手势识别这个部分。

人类使用各种各样的手势,从用手简单指向一个物体,到用手势来表达自身的情感。因此,手势识别在多模态人机交互技术扮演重要的角色。手势识别让人与计算机的交互显得更加自然。

有几个重要的问题在设计一个手势识别系统所需要考虑的。第一阶段的任务就是建立一个数学模型能识别带有空间和时间特征的手和手势。在手势识别的性质和性能中用于建模的方法起着至关重要的作用。一般来说特征是从图像或者视频中提取的。一旦特征被提取,模型参数的估算是基于这些特征的子集,知道找到合适的匹配。举个例子,当系统检测n个点,系统会视图判断这n个点或者其子集是否能匹配一个手的特定的手势或者动作的特征。模型参数是基于建模的方法对一个手势的或者轨迹的描述。所涉及的重要问题有手的定位,手的跟踪和合适特征部位的选择。

在任何情况下,为了能在多模态交互应用程序中从分利用手势,那类公认的手势应该是广泛的和明确的,用户执行的任何的手势都需要被明确的解释。然而大多的基于手势的人机交互应用程序只允许基于手势的特定的命令和3d指向。这是因为动作分析的复杂性和建立实时性接口的要求。大部分系统只能实现单手手势。然而人类的手势,特别是交互时候的手势,很自然的用到双手。然而,如果双手都被允许了,那么一些模棱两可的情况就会出现(闭塞的,有意的或者无意的,并且处理时间也会增加。另一个当面,会考虑增加其他模态到多模态人机交互系统中。

3.3凝视检测

目光,被定义为眼睛在空间的指向,从1879年,在心理学被广泛的研究,现在更多的是在计算神经科学里研究。在早期,眼动跟踪只是局限于在实验室系统里进行研究,现在很多商用的实验系统也都被运用在一些应用中。

眼动跟踪系统可以分为可穿戴的,不可穿戴的,基于红外线的和基于表观的。在基于红外线的眼动跟踪系统,被跟踪的目光照射在物体上产生一个红眼效应,通过眼角膜和反射的差异来确定目光的方向。基于表观的眼动跟踪系统,计算机视觉技术被用来从图像中找到眼睛和判断眼动的方向。然而可穿戴设备是错误率最低的。基于红外线跟踪的系统要比基于表观的更精确,但是长时间暴露在红外线下带来安全隐患。此外,非可穿戴设备对个人要求一些繁琐的校准。

基于表观的眼动跟踪系统通常使用两个摄像头来捕获双眼来预测眼动的方向。考虑到同时计算两个数据流的计算成本,通常每只眼睛的分辨率是很低的。这样使得眼动跟踪系统不是很精确,尽管提高计算能力和降低成本。作为一个替代品,研究者们建议使用一只眼睛的高分辨率图像来提高准确性。另一方面,在红外跟踪系统里通常也是使用一个摄像头,但是同时使用两个摄像头被证明能大幅度提高精确度。

尽管大多数研究非可穿戴系统专注于桌面用户,由于无处不在的计算设备使得用户允许用户不是静止的。比如一个汽车的司机注释监控系统使用一个单一的非可穿戴的摄像头放在汽车的仪表盘上来跟踪司机的面部特征和目光。

可穿戴的眼睛跟踪设备也大多是用在桌面应用程序里。并且,因为硬件技术的进步和成本的降低(如重量和尺寸的下降),研究人员开始有能力研究新兴的应用(如在人行走的时候跟踪)。举个例子,从用户的角度来看,眼动跟踪的数据是跟视频结合在一起,头的方向,跟其他用户进行交流时手自然的动作。

视线跟踪系统发展的主要问题是侵入性,准确性,鲁棒性,和高速性。必要的硬件类型和算法高度依赖分析所需的水平。 视线分析有三个不同的等级:细节的低水平的微型时间,低水平的有寓意的时间,基于目标的事件。微型事件包括扫视,抖动,眼球振动,和短暂的注视。这被用来研究心理学和心理学相关的研究。低水平的有意思的事件是那些小的连贯的动作,包括持续的注视和回顾。尽管大部分人机交互系统的主要任务是集中在低水平的基于目标的时间,显而易见这种分析的重要性处在低水平,特别是用来推断用户情感认知的接口。在本文中,一个重要的问题就是经常忽视对眼动跟踪的数据的解释。换句话来说,当用户在交互的时候眼睛转动了,系统就必须要判断出用户要表达的意思相应地进行交互。我们转动的我们的眼睛每秒2到3次,因此一个系统必须要在短时间内处理大量的数据,即使一个任务不是在实时处理系统里完成的,这并不意味这它是微不足道的。一个解释眼动跟踪数据的方法是聚类分析和假设,举个例子,那些感兴趣领域的簇。聚类分析只是其中的一个分析方法,然而,其他研究者指出确定聚类分析方法的参数是一个很难的问题。其他的方法如统计学的方法,统计研究运动,跳跃,间距的固定等的数据。

4有效的人机交互

大多数人机交互系统不考虑人与人交互的时候会使用情感来增强交互这一个事实。然而,由于情感是一个通过多模态表达出来的,因此这是多模态人机交互的重要领域,我们必须要重视。人机交互系统可以探测到有效的人类的状态(比如,压力,注意力不集中,愤怒,疲倦等),如果系统有能力适应这些状态,并且能够对其做出反应,则这样的系统被认为是自然有灵性的。在Picard的书里有推荐几款这样可以识别人类情感的应用。举个例子,能有理解用户的情感,系统可以成为一个更高效的向导。合成语音情感的音调比单调的声音听起来更悦耳。计算机可以通过用户的情感更好的理解用户的情感。另外一种应用程序是帮助人类用户更好的监控他们的压力水平。在临床上,情感识别可以帮助医生更早地发现有心理障碍的患者。

对人类情感进行机器分析的研究领域去设计更自然更灵活的人机交互系统是情感计算的总称。这里有很多关于情感计算和情感识别的文献的链接。情感识别很复杂地和其他功能联系在一起,比如注意力,感知,记忆,做决定,和学习。这就表明这将是会有利于人机交互系统去识别与用户情感相关的状态和表达。为了解决情感沟通的问题,Bianchi-Berthouze和Lisetti指出在设计人机交互系统识别用户情感三个重要的问题:具体化,动态化,自适应。

研究者们主要采取两种不同的方法来识别人类的情感。一种是将人类的情感分成离散的类别,比如:恐惧,兴奋,爱情,惊讶,沮丧等等,使用不同的模态来输入。问题是有些情感是一个混合情感,并且对分类的选择也具有很多限制性。另外一个方法是,从多维度和多尺度的角度来描述情感。两个常用的尺度是化合价和兴奋。化合价的采用两个角度来描述情感,一方面是积极兴奋的角度,另一个角度是消极沮丧的角度。另外一个维度是唤醒或者激励。举个例子,沮丧有一个低的唤醒水平,然而惊讶有一个高的唤醒水平。不同的情感标签可以绘制在右两个维度组成的二维平面的不同的位置来建立二维空间的情感模型。

面部表情和声音的情绪在情感识别是很重要的,因此我们接下来将详细讨论这些问题。

4.1面部表情识别

大部分面部表情识别的研究工作是受到Ekman的研究工作,基于面部表情表情编码的动作单元。

尽管有大量的研究面部表情识别的方法,但是主要还是受到以下因素的限制:

<ol

剩余内容已隐藏,支付完成后下载完整资料</ol


资料编号:[153952],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。