用于从生理信号识别情绪的机器学习模型外文翻译资料

 2023-01-28 14:37:56

用于从生理信号识别情绪的机器学习模型

J.A. Domiacute;nguez-Jimeacute;nez, K.C. Campo-Landines, J.C. Martiacute;nez-Santos, E.J. Delahoz,S.H. Contreras-Ortiz

摘要

情绪是与生理反应有关的情感状态。这项研究提出了一个模型,用于从生理信号中识别三种情绪:娱乐,悲伤和中立,目的是开发一种使用可穿戴设备进行情绪识别的可靠方法。使用视频片段在37名志愿者中引发了目标情绪,同时记录了两个生物信号:光电容积描记法,提供有关心率以及皮肤电反应的信息。在频域和时域中对这些信号进行分析以获得一组特征。评估了几种特征选择技术和分类器。最佳模型是通过随机森林递归特征消除(用于特征选择)和支持向量机用于分类获得的。结果表明,可以检测娱乐,悲伤,仅使用皮肤电响应功能即可获得中性情绪。在测试数据集上进行评估时,该系统能够以高达100%的精度识别三个目标情绪。

关键词

情绪识别;生理信号;生物信号处理;机器学习;情感计算

1 介绍

情绪是影响行为和认知过程的情感状态。它们是由于外部或内部刺激而出现的,并伴有生理和生理反应。通过面部表情,行为和生理反应,可以区分出几种不同的情绪 [1]。普鲁奇克提出了一种情绪的心理进化论,该理论考虑了八个主要的情绪状态:恐惧,愤怒,喜悦,悲伤,接受,厌恶,期望和惊奇 [2]。文献中已考虑的其他情绪包括兴趣,蔑视,罪恶和羞耻。情绪可以表现为两个特征:效价或愉悦,以及唤醒或激活 [3]。罗素[4]提出了一个二维情感模型。如图1所示,该模型根据情绪的效价和唤醒来组织情绪。

图1 罗素的绕线情感模型[4]。

情绪的发作和强度与神经和生理活动,思想和文化有关。从生理学的角度来看,认为情绪是人类对事件的生理反应产生的[5]。

自上世纪以来,自动情绪识别一直是人们关注的话题。先前的工作已经开发出用于从语音特征[6],[7],面部表情[8],身体手势[9]甚至敏感屏幕上的触摸[10]进行情绪检测的方法。由于人们可以刻意隐藏自己的情绪,因此仅基于身体信号的方法可能无法识别一个人的真实情绪状态。一些研究已经使用了将语音,面部和生理信号相结合的多模式方法来进行情绪识别 [11],[12]。

与情绪状态有关的生理信号的变化是非自愿的,人们常常不知道它们。因此,生理信号分析可以成为一种可靠的情绪识别方法。先前的研究表明,生物传感器可以通过监测自主神经系统(ANS)的活动来进行情绪检测[13],[14]和[15]。

使用生物信号进行情绪识别的另一个优势是该系统可以设计为可穿戴且不引人注目。自1990年代以来,一些研究提出了将可穿戴技术用于情绪检测的建议。Picard和Healey于1997年提出了“情绪可穿戴设备”的概念,该设备是配备传感器的电子设备,用于监测皮肤电反应(GSR),血压(BVP),心率(HR)和肌电图(EMG)等信号,目的是识别佩戴者的情绪状态 [16]。后来,Scheirer等人,开发了一种可穿戴设备,用于使用眼镜感知面部肌肉运动以识别表情(例如困惑或兴趣)的面部表情识别[17] 。2004年,Haag等人,提出了一种系统,该系统可获取呼吸频率(RSP),心电图(ECG),GSR和面部EMG信号,并使用模式识别技术来识别情绪价态和唤醒度,具有很高的准确性[18]。尽管该系统使用有线传感器并且不可穿戴,但作者表示,将来,传感器将变得足够小,从而可以设计用于情绪识别的可穿戴设备。最近的研究提出了使用现成的可穿戴传感器,智能手机和移动平台进行情绪检测的框架[19],[20]。这些技术也已用于其他应用程序中,例如医疗保健,教育,游戏和运动[21],[22],[23]。

在情绪研究中,情绪激发是必不可少的,但是情绪激发是一项艰难的任务。在实验中,可以使用不同类型的刺激来激发情绪。以下研究使用图片,视频片段或音乐作为刺激。Gouizi等,使用来自国际情感图片系统(IAPS)的图片来诱发情绪,并记录EMG,呼吸量(RV),皮肤温度(SKT),皮肤电导(SKC),BVP和HR。然后,他们使用支持向量机(SVM)对6种基本情绪(欢乐,悲伤,恐惧,厌恶,中立和娱乐)进行分类,识别率为85% [24]。最近的一项工作是使用日内瓦情感图片数据库(GAPED)进行情绪激发。他们开发了一种系统,可从PPG和GSR信号中对效价和唤醒进行分类,对于单用户模型,其准确率高达86.7%[25]。

刘等,使用视频片段引发四种情绪(幸福,悲伤,愤怒和恐惧),并记录GSR。使用SVM对情绪进行分类,其准确性为66.67%[26] 。Ayata等,根据GSR和光电容积描记(PPG)信号的情感识别,开发了一种音乐推荐系统。他们将生理信号数据库(DEAP)进行情感分析,其中包括视频观看过程中受试者的PPG,GSR和EMG信号,分别获得了高达72.06%和71.05%的唤醒和效价预测准确率[27] 。最后,Balasubramanian等,使用脑电图(EEG)信号研究对音乐的情绪反应。他们将感知到的情绪的效价和唤醒与诱导性情绪的效价和唤醒进行了比较[28]。

本文提出了一种利用生物信号处理和机器学习技术进行情绪识别的方法。我们开发了一种配有两个现成传感器的仪器化手套,可采集PPG和GSR信号。当志愿者在观看视频片段中引起情感时,这些生物信号被记录下来。仔细选择了信号特征,并评估了几种机器学习技术。所提出的系统能够高精度地识别娱乐,悲伤和中立状态。该研究项目的初步结果发表在会议论文中[29]。先前工作的目的是确定PPG和GSR信号特征的平均值与情绪状态之间的关系。本文提出了一种新的情绪诱发和生物信号记录实验协议,以及一种完整的情绪识别方法。本文的其余部分安排如下。第2节介绍了刺激的选择,实验方案,所选功能和性能测量。然后,第3节介绍了结果。最后,第4节总结了论文。

2 方法

图2示出了所提出的用于情绪识别的方法的框图。开发了一种可操作的手套,用于在情绪激发实验中获取两种生物信号:PPG和GSR。在频域和时域中对这些信号进行分析,以提取一组特征,然后选择最重要的特征来训练分类器。信号处理任务在Matlab(Mathworks Inc.)中完成,而统计分析在RStudio(1.1.442版)中完成。

图2 情感分类的数据处理阶段图

该系统旨在识别三种情绪状态:娱乐,悲伤和中立。娱乐是一种感觉,是由于经历了一些有趣的事情而出现的,可以位于环行的第一象限,具有正价和唤醒。另一方面,悲伤被认为是一种不愉快的感觉,它位于环的第三象限,具有负价态和唤醒性[15]。最后,中性可以位于模型的中心。

下面是对情绪激发实验协议的描述,以及数据获取和处理阶段。

2.1 实验方案

我们邀请了42位18-25岁的健康受试者参加实验。这项研究已由玻利瓦尔大学技术伦理委员会批准。该协议的框图在图3中示出。

图3 实验协议 在演示两个视频剪辑之前和期间都记录了生理信号。

实验是在大学的生物工程实验室中进行的。受试者到达后,一名研究助理解释了该程序并回答了受试者的问题。他说,这项研究的目的是在观看视频剪辑时分析生理信号,而没有提及情绪检测的目的,以促进自发的情绪诱发。受试者签署了知情同意书,将戴手套的手套放在左手。然后,要求受试者填写刺激前调查以了解他/她的初始情绪状态。调查结果示于图4。可以看出,大多数受试者报告称戴手套感觉良好且舒适。

图4 刺激前调查的结果

当观察到受试者处于中立状态时,来自传感器的信号记录了两分钟。之后,要求对象观看引起悲伤的视频剪辑。在刺激过程中记录了生物信号。视频结束后,要求受试者填写刺激后调查问卷以询问其情绪。然后,呈现了第二个引起娱乐的视频剪辑,并重复了该过程。

最后,研究助手摘下手套,回答了问题,并感谢受试者的参与。

2.2 刺激选择

我们使用了FilmStim数据库中的视频片段进行情绪激发[30]。该数据库由70个视频片段组成,这些视频片段引起了多种情绪:愤怒,悲伤,恐惧,厌恶,娱乐,温柔和中立状态。我们选择了两个视频剪辑,持续时间约为2分40秒。以下是有关场景的简要说明。

bull;悲伤。天使的梦想生活。玛丽跳出窗外自杀。

bull;娱乐性。当哈利遇到莎莉时。萨利在餐厅里假装性高潮,使哈利尴尬。

为了确认所选视频剪辑对唤起目标情绪的有效性,我们对364个对剪辑评分的志愿者的得分进行了分析。评估的参数是主观唤醒,正面和负面影响,情感离散分数和15种混合感觉分数。

每个情感类别选择了十部电影。由于记录的维度较高(40个维度),我们使用主成分分析(PCA)来找到视频剪辑的视觉表示。图5显示了两个第一维,它们解释了数据变异性的58.01%。所选的娱乐视频剪辑位于第二象限中。此位置使娱乐的离散性系数最大化,并且处于正唤醒(PA)得分的方向。另一方面,悲伤视频剪辑在悲伤离散性系数的增长方向上位于第一象限。此位置有助于产生负面唤醒(NA)评分。

图5 基于Shaefer等人提供的数据的主要分进行的探索性分析。[30]

2.3 生理信号采集

选择PPG和GSR信号来评估受试者的情绪状态。以下是这些信号的说明。

bull;GSR:皮肤电反应是皮肤电导率的量度。它随ANS控制的汗腺活动的变化而变化 [31],[32],[33] 。先前的研究表明,皮肤电导率随着情感唤醒而单调增加[34],[35]。我们使用了商用传感器(Grove-GSR传感器)来测量GSR信号。传感器连接到对象的中指和食指。

bull;PPG:光电容积描记信号是一种非侵入性的光学技术,可以检测组织中的血容量变化。它可以用来测量心率和血氧饱和度。心率受交感神经系统和副交感神经系统调节,并随情绪状态而变化。心理唤醒的特点是心律加快[36]。另外,已经观察到,由于不愉快的刺激,心率下降 [35]。在这项研究中,我们使用固定在受试者无名指上的商用PPG传感器(Gravity,DFRobot)测量了心率。

开发了一种带手套的手套来固定数据采集​​系统(见图6)[29] 。传感器连接到微控制器板(Bluno Nano,DFRobot)。采样频率为500 Hz,数据通过USB端口获取。

图6 仪器手套,用于信号采集

2.4 特征提取

来自37名受试者的录音质量合格并且进行了分析。来自其他五个受试者的信号已饱和,被排除在研究之外。

在特征提取之前,对信号进行滤波以减少噪声。PPG信号用转折频率等于0.1 Hz和10 Hz 的100阶带通FIR滤波器处理。GSR信号使用转折频率为1 Hz的1000阶FIR滤波器进行低通滤波。

使用短时快速傅立叶变换(ST-FFT)从PPG信号估计心率。我们使用5秒长度的窗口和零填充来获得每分钟2次拍的有效频率分辨率(BPM)。

从信号中提取的特征是根据先前在情感识别中的研究选择的[37],[27],[38],并考虑了医疗保健中使用的相关指标和规范[39],[40]。

2.4.1 光电容积描记信号

在时域和频域中对PPG信号进行分析,以获得13个特征。

bull;时域特征:根均方连续R-R间期(HRRMSSD)和正常正常R-R间期的标准偏差的差异(HRSDNN)。

bull;频域特征:心率平均值(hrmean),心率标准偏差(hrstd),心率动态范围(hrdr),心率模式(hrmode),其第二,第三,第四和第五谐波的谐波失真PPG信号(THD2,THD3,THD4,THD5)。PPG信号的功率谱分为两个频段:低频(0.04–0.15 Hz)和高频(0.15–0.5 Hz),以计算低频和高频(分别为LFnu和HFnu)的归一化功率,以及LF与HF功率之比(LFHFnu)。

2.4.2 皮肤电反应信号

对GSR信号进行时域分析,以表征其可变性。总共计算了14个特征:平均值(scrmean),标准偏差(scrstd),动态范围(scrdr),导数的平均值(scravd),导数的负值(scraonv)和负值占总数的比例样本数(scrpnv)。为了获得有关非线性和非平稳分量的信息,使用了经验模式分解(EMD)。我们将模式数限制为四个,并计算每种模式的能量(emf1,emf2,emf3,emf4)和过零率(crm1,crm2,crm3,crm4)。

2.5 功能选择

我们总共计算了27个特征,但并非所有特征都在分类阶段考虑了,因为变量之间可能的依赖性可能会降低分类器的性能。文献中已经使用了几种特征选择方法,下面将介绍其中一些方法。Chih-Fong使用T 检验,相关矩阵,逐步回归(SW),主成分分析(PCA)和因素分析(FA)来选择最具代表性的破产预测特征 [41] 。牛等,使用遗传算法(GA)和K邻域进行特征选择以从生理信号中识别情绪[42]。Zvarevashe等,使用带有梯度增强机(GBM)的随机森林递归特征消除(RF-RFE)算法进行性别语音识别[43]。

为了找到代表目标情绪的最佳特征子集,我们使用了几种特征选择技术,包括SW,RF-RFE和GA。表1列出了每种技术的最终预测指标。

表1 特征选择方法和最终预测器

2.5.1 逐步回归

该方法通过逐步删除影响最小的预测变量来回归多个变量。最终回归模型中仅包含具有非零系数的自变量。SW有三种类型:前向选择(FW),后向选择(BW)和双向消除(BIDIR)。我们将SW与Akaike信息准则(AIC)一起用作停止准则。

2.5.2 遗传算法

GA的灵感来自自

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[237669],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。