基于情感信息与协同过滤的推荐系统建模外文翻译资料

 2022-08-28 12:13:17

英语原文共 25 页,剩余内容已隐藏,支付完成后下载完整资料


基于情感信息与协同过滤的推荐系统建模

Tae-Yeun Kim , Hoon Ko , Sung-Hwan Kim and Ho-Da Kim

摘要:情感信息表示用户当前的情绪状态,可用于各种应用程序,如根据用户情绪状态和用户情绪监控推荐音乐的文化内容服务。为了提高用户的满意度,推荐方法必须理解和反映用户的特征和环境,如个人偏好和情绪。然而,大多数推荐方法并不能准确地反映出这些特征,也无法提高用户的满意度。在本文中,六种人类情绪(中立、快乐、悲伤、愤怒、惊讶、无聊)被广泛定义,以考虑用户语音情感信息并推荐匹配的内容。采用“遗传算法作为特征选择方法”(GAFS)算法,根据语音情绪信息对归一化语音进行分类。我们使用了一个支持向量机(SVM)算法,并选择了一个最优的核函数来识别六种目标情绪。对每个核函数的性能评估结果表明,径向基函数(RBF)核函数的情绪识别准确率最高,为86.98%。此外,利用因素分析、对应分析和欧几里得距离,根据情感信息对内容数据(图像和音乐)进行了分类。最后,根据通过协作过滤技术识别的情感和情感信息进行分类的语音信息被用于预测用户的情绪偏好,并推荐在移动应用程序中与用户情绪相匹配的内容。

关键词:协同过滤、情感识别、支持向量机算法、语音中的语音情感信息非常活跃。

1.介绍

以往语音识别研究的结果可以作为基于语音的情感识别的起点。然而,以往的研究在特征提取和模式识别算法的选择方面有很大的差异。在特征向量的选择方面,语音识别方法主要使用建模音素的元素,而情感识别则使用韵律元素。除了特征选择外,模式识别算法的选择也是一个重要的方面。根据基于提取特征的情绪建模方法,可以选择不同的模式识别算法[7,8]。情绪信息表示用户当前的情绪状态,可用于各种应用程序,如根据用户情绪状态和用户情绪监控推荐音乐的文化内容服务[9].

对考虑用户倾向于有效地纳入各种用户需求的推荐技术的研究也在进行中。包括推荐技术的应用程序用于预测用户感兴趣的项目并推荐这些项目[10,11]。一种典型的推荐技术是基于内容的协作过滤。基于内容的推荐技术可直接分析内容,以检查内容项之间以及内容项和用户首选项之间的相似性。然后,根据此分析的结果,建议添加新的内容。协作过滤分析具有与其他用户相似的倾向的用户,并估计他们的内容偏好[12,13]。为了提高用户的满意度,推荐技术必须理解和反映用户的特征和环境,如个人偏好和情绪。然而,大多数推荐技术都没有考虑到这些特性,也无法提高用户的满意度。

情绪识别是一种通过分析与语音和手势相关的信息来识别情绪状态的技术。手势会因文化而不同。在成年人中,通过语音提取的情感相关信息比使用手势等面部表情的信息更一致,因为成年人倾向于控制自己的情绪。语音情绪识别(SER)的目的是从语音信号中提取特征,然后定义情绪模型、学习和分类[14]。对于情感建模,隐马尔可夫模型(HMM)主要用于过去。然而,最近深度神经网络(DNNs)和递归神经网络(RNNs)的出现,使语音信号等时间序列数据识别系统的研究取得了显著进展[15]。Issa等人的研究。介绍了一种从语音文件中提取摩尔频率上弦系数(MFCC)、色谱、摩尔尺度谱图、Tonnetz表示和光谱对比特征的架构,并将它们用作一维卷积神经网络(CNN)的输入。此外,还采用了一种增量方法,利用情感语音视听数据库(RAV-DESS)、柏林(EMO-DB)和交互式情感二元运动捕获(IEMOCAP)数据集的样本来修改初始模型,以提高情感识别和分类精度[16]。萨贾德等人的研究。提出了一种基于基于基于重拨的函数网络(RBFN)相似度度量的关键序列段选择的语音情感识别(SER)框架。采用短时间傅里叶变换(STFT)算法将选定的序列转换为频谱程序,并转换到CNN模型中,从语音频谱程序中提取出独特而显著的特征。通过正常化CNN功能并将其提供给双向长短期记忆(BiLSTM),学习了识别最终情绪状态的时间信息[17]。王等人的研究。提出了一种利用面部表情和语音信息的加权决策融合方法实现语音情绪识别的双峰融合算法。该算法通过结合CNN和长短期记忆(LATM)RNN实现了面部情绪识别,然后使用MFCC将语音信号转换为图像[18]。这些研究使用了帧单元特征、发音单元特征以及LSTM RNN、DNN和简单集中结构模型的组合,并使用EMO-DB或IEMOCAP等数据集进行了性能评估。

随着深度学习的快速发展,在实际实施后取得了优异的成绩,许多关于人工智能(Al)的研究正在积极进行。然而,在基于语音信号的情绪识别系统中,选择能良好地表达情绪的语音信号的特征向量与选择准确的分类引擎一样重要。这些系统比其他表情识别系统的识别率更低,如面部表情识别,不是因为系统本身的性能低下,而是由于语音特征的提取和选择效率低下。

因此,本研究旨在寻找一种有效而合适的情绪分类特征向量集,以提高使用语音信号的情绪识别系统的性能,并期望获得更高的情绪识别率。本研究中使用的语音数据来自一个适合韩语和文化的韩语风格的情感语音数据库。情绪分为正常、快乐、悲伤、愤怒、惊讶和无聊。共有2400个文件和400个关于每个情感的数据被用作这个识别系统的数据,包括相当比例的男女语音。本研究采用了一种SVM分类器作为分类算法。对于图像情感信息,选择了20个彩色情感模型作为代表元素。利用五点问卷调查进行了因素和对应分析,并生成和测量了每种颜色的情感空间。 此外,对于音乐情感信息,使用欧几里得距离根据用户的情感历史的语音情感信息为当前情感推荐合适的音乐。因此,利用情感信息的属性,即根据用户的情绪而变化的偏好项,我们试图提出一个根据用户的情绪来推荐不同内容的系统。这是通过合并协作过滤与从用户那里实时接收到的静态情绪信息来进行的。我们还试图通过实验来提高性能。

2.配置与设计

所提出的采用语音情绪信息和协同过滤的内容推荐系统,主要由情绪分类模块、情绪协同过滤模

块和移动应用程序组成。

表1 系统配置

2.1情绪分类模块

2.1.1情感模型的选择

在情感识别领域,必须建立一个系统的情绪模型来准确地预测情绪状态。人类的情感是多样而复杂的,可以用大量的形容词来表达。关于量化情绪状态和检查情绪状态之间的相关性的研究正在进行中。在情感识别领域中常用的两种情感模型是拉塞尔模型和塞耶的价-觉醒模型。前者代表了一个具有正-负偏好轴和主动-被动偏好轴的二维空间中的人类情感。价唤醒模型是一种情感模型,通常用于情感识别研究,描述不同二维空间中的各种情绪。罗素模型是一种基于形容词的模型,它的缺点是它使用了重叠的含义和含糊的形容词表达[19]。塞耶模型通过使用代表情绪倾向的价轴和代表情绪强度的唤起轴来定义各种情绪状态,克服了这些缺点 [20].

与其使用形容词,你可以选择特定的典型情绪,如快乐、惊喜、恐惧、恐怖、愤怒和悲伤。价-唤醒模型的优点是以连续的方式描述人类的情绪状态,并允许选择多种情绪。然而,它的缺点是存在模糊的情绪,很难区分相应的二维索引和广泛的情感形容词。当选择一种典型的情绪时,该情绪的表达很清晰,很容易根据该情绪对语言进行分类。因此,该方法通常用于基于语音的情绪识别领域的表示情绪。

图示意图2概述了塞耶的情感模型

在本研究中,我们使用了一种典型的情感清晰表现的情绪描述方法。我们关注了六种在情感识别领域中常用的典型的情感:中立、快乐、悲伤、愤怒、惊讶和无聊。

2.1.2言语情感信息

由人类发声的语音信号是包含各种类型的信息的声学信号,如语言信息和独特的生物识别信息(扬声器信息)。预处理的目的是从中提取表达语音的参数,语音信号,使它们根据语言和说话者信息对下一个过程有用。

终点检测

通过麦克风发声的说话者的语音除了包括语言或说话者信息的语音部分外,还包括切片和噪声部分。在终点提取过程中,有必要区分噪声和语音部分与输入信号。识别系统的性能在很大程度上取决于终点提取的精度,一般采用短截面代数能量和零交叉率等参数。代数能量用于区分语音音段和噪声音段,而零交叉率用于区分语音区间和非语音区间音段。在无噪声语音信号中,仅使用代数能量和零交叉率,就可以在一定程度上准确地提取端点。然而,如果存在噪声,终点提取就变得非常困难。

短截面代数能量是某个短截面(框架)的能量。端点是利用无声部分和语音部分之间的巨大能量变化,基于无声部分的能量值小于语音部分的能量值这个事实来提取的。如果短截面能量为Ef,则由以下公式(1)得到。

其中,N是一帧中的样本总数,而x(n)是输入语音的第n个样本值。

与代数能量相似,计算了每一帧的零交叉率。它表示在一帧中输入的语音信号穿过水平轴的次数(零点)。这是用于区分语音间隔和非语音间隔的声音段。语音间隔声段具有较大的零交叉率,因为能量集中在一个低频波段。此外,无声段的零交叉率是由周围环境的改变。它通常小于非语音间隔的声音,而大于语音间隔的声音。当每一帧中的零交叉率为Z时,它被表示为公式(2)。

其中,N是一帧中的样本总数,而x(n)是输入语音的第n个样本值。

特征参数提取法

通过端点提取得到的语音信号经过了特征参数提取过程。在此过程中,得到了表示10-30ms各段(帧)中语音特征的特征参数。有能量、零交叉率、螺高周期、性能、线性预测系数上峰和摩尔频率上峰系数(MFCC)。比较这些特征参数的性能的研究正在进行中。

为了基于语音信息进行情感识别,有必要选择允许区分情感的特征,而不是在语音识别中通常使用的特征。磁尔频上弦系数(MFCCs)是用作表示语音音素的参数的典型特征,而音高、能量和发音速度是用于情感识别的韵律因素。关于语音参数,为语音信号中定义的间隔计算的音高和能量值用于计算统计信息,如平均音高、音高标准偏差、最大音高、平均能量、能量标准偏差等。这些信息然后可以用于情绪识别。此外,在模式识别阶段,高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)和人工神经网络(ANN)算法被用于语音识别和说话人识别作为识别方法 [21,22].

作为语音信号的代表特征,我们提取了包含韵律特征的音高和能量,以及包含音素特征的MFCCs。我们还计算了每个特征系数的三角洲值。本研究计算了每个特征系数的平均、标准偏差和最大值,并作为情绪识别特征,通过“遗传算法作为特征选择方法”(GAFS)进行优化。此外,我们还使用了SVM分类器来执行模式识别。具体地说,分析了SVM分类器中每个核函数的准确性,以识别可用于准确分类和识别每个情绪的特征。通过这种方式学习的语音情感信息构建了一个语音情感数据库。

预处理过程

提取可靠特征向量的语音预处理过程由帧单元中语音信号的划分、汉明窗口和端点检测组成。

首先,在16kHz处对输入的语音信号进行采样,并通过16位脉冲码调制方法来提取特征。然后使用维纳滤波器来去除被采样的语音信号中的噪声。

我们使用汉明窗口从采样的语音信号中提取音高[23,24].此外,还应用了一个与相邻帧重叠50%的汉明窗口。接下来,进行终点检测,以区分语音信号中

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405243],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。