英语原文共 4 页,剩余内容已隐藏,支付完成后下载完整资料
虚拟主持人的合成与动画
作者:Lei Xie · Jia Jia · Helen Meng · Zhigang Deng ·Lijuan Wang
所谓虚拟主持人,是指与人类外观相近、运用真人的声音或合成声音、经过动画化的虚拟角色,且逐渐显示其潜在应用于人机智能交互中。虚拟主持人有丰富的沟通交流能力,可以通过声音、语调、目光交流、头部动作和面部表情等等,来传递语言和非语言的信息。虚拟主持人也越来越多的应用于多种多样的电子设备当中,例如电脑、智能手机、平板电脑、展台和电子游戏平台等等。虚拟主持人也越来越多的应用于许多领域,例如技术支持和客户服务,与艾滋病患者交流,语言治疗、虚拟现实技术、电影特效、教育和培训[6]等各个领域。对于虚拟角色的设定来说,特定的应用程序可能会包括一个为儿童讲故事的虚拟角色设定,或是一个为个人或者商业网站服务的虚拟导航程序或主持程序,或是一个电子游戏中玩家的电子化身或者一个与人类交流的有趣电脑媒介,虚拟角色将成为人机交互中具有很强表现力的界面和端口是很明显的。
尽管多年的努力[1, 4, 8, 14, 15],目前的研究当中,虚拟角色尚未达到可以拥有情感并且智能化表达出来的阶段,但是他们可以像人们一样通过声音和面部表情来表达他们的感觉和情绪。为了解决这个问题,最近,科研人员致力于理解人类复杂的行为,并且根据情感的内容,生成逼真的语言和面部表情来加强虚拟角色的表达能力。
这个特殊的问题旨在汇集于各个科研方向的研究人员从事于虚拟角色的合成和动画。我们收到了超过20个的高质量论文的提交,并且每篇论文都受到至少三位评论者的同行审查评议。经过几轮的讨论和抉择,最终确定了十份包含这个特殊问题的论文,这些论文可以划分为三个主题:虚拟动画[3, 9, 13]、语音合成[11, 12, 16, 18]和人类情感/行为分析[5, 10, 17]。
尽管已经经过了数十年的研究,生成逼真的虚拟角色仍然是一个具有挑战性的任务。图片现实或视频现实的表现仍然是一个重要的目标,这个重要目标旨在制作出一个与真人很像的虚拟角色[1],来自微软亚洲研究中心的的王和宋是提出轨道引导控制的隐马尔科夫模型(HMM),是实像样本连结真实图像与虚拟头部动画的方法。首先,他们提出的嘴唇运动轨迹模型和预测统计的隐马尔科夫模型(HMM)与最大相似模型初始化的尝试和进一步细化地狱最低误差的准则来构建虚拟角色。其次,他们使用轨迹引导样本选择的方法,这个方法是用来在图像库中指导选择出真实的样本来构造所呈现的实景,虚拟角色的仿真头部处理参加了视听语言处理研究会中LIPS2009的挑战赛,并且其中多项获得了视听语言比赛中的第一名。
其中非语言方面,如手部姿势、面部表情和头部动作,都可以用来表达情感、给与反馈以及和人类沟通交流,因此,自然的动作是虚拟角色的电脑动画更加真实的一个不可或缺的因素[1, 7]。为了结项,丁和谢[3]不断研究神经网络来解决头部合成问题。最近,深度神经网络(DNN)和深度学习技能[2]已经成功的应用于许多任务的完成中。不同与以前的方法,把讲话的头部动作视为分类任务,这种方法直接将学习讲话的头部动作的回归当作一个深度神经系统。在都不动作预测中的显著性改进已经取得部分成效并发表,充分利用丰富的非线性学习研究能力,吴等人[13] 开发了一个深度神经网络的方法来应用于虚拟角色实时对话的驱动方法,具体的说,三维虚拟角色的输入系统是声学系统,输出系统是的关节运动。研究结果表明,这个发声系统与映射方法作为适用于深度神经系统(DNN),对一般线性模型(GLM)、高斯混合模型(GMM)和传统的人工神经网络(ANN)来说,可以实现最高的性价比。
对于逼真的虚拟角色来说综合自然的说话方式是十分必要的,吴等研究者[12]聚焦于生成的虚拟角色来扮演一个重要的角色,用角色强调话语的重点来吸引用户的注意,在句子中强调几个单词,所需要面对跨越的一大障碍是是数据的限制,为了处理这些数据的几个问题,研究者们提出了一个基于隐马尔科夫模型(HMM)的方法来限制大量的数据。实验表明,语音合成模型的提出不仅提高了强调性语音合成的质量,同时保持了高度的自然性,杨等人所写的另一篇文章 [16] 旨在赋予虚拟角色更多的语言能力。具体多说,他们不断思考现代真实世界资源匮乏的情况,即从一个语言资源丰富的数据库(普通话)、资源匮乏的数据库(藏语)为语言的输入输出来建立一个语言合成系统,如何面对。在演讲者适应性训练策略的帮助下,他们基于隐马尔科夫模型(HMM)的跨语言语音合成系统,优于只使用西藏演讲者的模型,特别是藏语演讲者只进行了少量的训练时,因此跨语言语音合成系统是需要且可用的。
在虚拟角色制作的动画当中声音的转换是非常有用的,旨在使原声听起来是其他的样子,使虚拟角色的配音与角色更加符合,声音转换的主要挑战是如何实现一个稳定的转换功能,给出并行源目标的语音话语。吴等人提出一种以示范为基础的声音转换方法,这种方法是假设可以作为一组基准目标样本的加权线性组合的生产目标范围,做这样的复原,将假设源目标样本组耦合成的声学对其与目标声库共享相同的线性组合。在吴的方法中[11],一个具有稀疏约束的联合耦合非负矩阵分解(NMF)是用于查找目标的激活权重,客观上和主观上皆证实了这个方法是非常有效的。
目前,情感语音合成技术在实现真人的表达能力方面,还尚未成熟,为了解决这个问题。尔马斯·迪斯等人提出了另外一种赋予角色胡乱讲话从而使虚拟角色能够有效的表达的方式[18]。难以置信的讲话方式由无意义的字符串来表现声音话语,这种方式是现在表演艺术家、动画制作和游戏制作商们用来表达角色感情的常用方式,拟议的研究表明,生成的胡言乱语的演讲方式可以在很大程度上有助于研究虚拟角色的情感表达,除了人类机器人/虚拟角色交互,合成胡言乱语的讲话方式可以用于合成语音的节段性评估,测试情感韵律策略和和其他研究的有效性。
如果说虚拟角色对用户行为和用户情绪很敏感,增强身临其境的体验感是肯定的。为此,王等人提出一个关联单位机制(RUM)的方法对空间和连续语音情感预测[10],然而冈萨雷斯等研究者[5]旨在识别面部动作和基于持续时间的时间部分模型。用户行为在本质上是多通道的,包括说话方式、面部表情、头部动作和身体姿势等等,为了提高虚拟角色对用户行为和用户情绪的敏感性,杨等人[17]提出的方法在对话框管理(DM)系统的基础上结合了用户综合行为与行为的历史线索。实验表明,这种DM行为敏感系统使虚拟角色能够对用户的面部表情,情感语音和手势更加敏感,增强了多模式人机对话的用户体验。
我们希望读者能够发现这些论文信息及虚拟角色有趣的方面。我们要感谢所有的作者提交的论文,我们在整个准备和发布这个特殊的问题的处理上也希望真诚的感谢主编、教授博科·弗特和编辑人员为他们宝贵的支持。我们也感谢审查员在审查文件方面的帮助。
参考文献:
[1]. Cosatto E, Ostermann J, Garf HP, Schroeter J (2003) Lifelike talking faces for interactive services. Proc
IEEE 91:1406–1429
[2]. Deng L, Yu D (2014) Deep learning: methods and applications, Now Publishers
[3]. Ding C, Xie L, Zhu P (2014) Head motion synthesis from speech using deep neural networks. Multimed
Tool Appl. doi:10.1007/s11042-014-2156-2
[4]. Ezzat T, Geiger G, Poggio T (2002) Trainable video realistic speech animation. In: ACM SIGGRAPH,
pp. 388–398
[5]. Gonzalez I, Cartella F, Enescu V, Sahli H (2014) Recognition of facial actions and their temporal
segments based on duration models. Multimed Tool Appl. doi:10.1007/s11042-014-2320-8
[6]. Hura S, Leathem C, Shaked N (2010) Avatars meet the Challenge. Speech Technol. 30–32
[7]. Le BH, Ma X, Deng Z (2012) Live speech driven head-and-eye motion generators. IEEE Trans Vis
Comput Graph 18(11):1902–1914
[8]. Wang L, Han W, Soong F, Huo Q (2011) Text-driven 3D photo-realistic talking head. In: Interspeech
[9]. Wang L, Soong FK (2014) HMM trajectory-guided sample selection for photo-realistic talking head.
Multimed Tool Appl. doi:10.1007/s11042-014-2118-8
[10]. Wang F, Sahli H, Gao J, Jiang D, Verhelst W (2014) Relevance units machine based dimensional and
continuous speech emotion prediction. Multimed Tool Appl. doi:10.1007/s11042-014-2319-1
[11]. Wu Z, Chng ES, Li H (2014) Exemplar-based voice conversion using joint nonnegative matrix
factorization. Multimed Tool Appl. doi:10.1007/s11042-014-2180-2
[12]. Wu Z, Ning Y, Zang X, Jia J, Meng F, Meng H, Cai L (2014) Generating emphatic speech with hidden
markov model for expressive speech synthesis. Multimed Tool Appl. doi:10.1007/s11042-014-2164-2
[13]. Wu Z, Zhao K, Wu X, Lan X, Meng H (2014) Acoustic to articulatory mapping with deep neural network.
Multimed Tool Appl. doi:10.1007/s11042-014-2183-z
[14]. Xie L, Liu Z-Q (2007) Realistic mouth-synching for speech-driven talking face using articulatory
modelling. IEEE Trans Multimed 9(23):500–510
[15]. Xie L, Sun N, Fan B (2013) A statistical parametric approach to video-realistic text-driven talking avatar.
Multimed Tool Appl 73(1):377–396
[16]. Yang H, Oura K, Wang H, Gan Z, Tokudai K (2014) Using speaker adaptive training to realize mandarin-
tibetan cross-lingual speech synthesis. Multimed Tool Appl. doi:10.1007/s11042-014-2117-9
[17]. Yang M, Tao J, Chao L, Li H, Zhang D, Che H, Gao T, Liu B (2014) User behavior fusion in dialog
management with multi-modal history cues. Multimed Tool Appl. doi:10.1007/s11042-014-2161-5
[18]. Yilmazyildiz S, Verhelst W, Sahli H (2014) Gibberish speech as a tool for the study of affective
expressiveness for robotic agents. Multimed Tool Appl. doi:10.1007/s11042-014-2165-1
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26294],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。