通过用户画像学习将个性化推荐中的新颖性和受欢迎度相结合外文翻译资料

 2022-08-09 11:44:57

英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料


通过用户画像学习将个性化推荐中的新颖性和受欢迎度相结合

Ricardo Mitollo Bertani a , Reinaldo A. C. Bianchi b , Anna Helena Reali Costa

摘要:推荐系统已被电子商务领域的大公司广泛用作辅助工具,用于根据用户的特定偏好搜索相关内容。文献中已经提出了各种各样的算法,旨在改善推荐的产生过程,特别是在文献中提出了一种基于协作和扩散的混合算法,以解决数据稀疏的问题,这会影响推荐的质量。该算法是其他几种有效解决稀疏数据问题的基础。但是,这一系列算法不会根据用户画像来区分用户。在本文中,提出了一种新的算法来研究用户画像,并因此通过扩散,结合新颖性和项目受欢迎程度来生成个性化推荐。在知名数据集中进行的实验表明,在相同设置下,该算法的结果优于基于扩散的混合算法和传统协同过滤算法的结果。

关键词:推荐系统;机器学习;数据稀疏性;基于扩散的算法;用户画像

  1. 背景简介

由于人和机器每天都会产生大量信息,因此在各种选项中选择最合适的内容变得越来越困难。 推荐系统(RS)被广泛用于帮助用户处理英特网上可用的大量信息,尤其是根据用户的特定偏好搜索最相关的内容。 由于这种系统非常受欢迎,并且需要确保此类工具能够向用户提供高质量且与用户相关的推荐,因此必须不断改进产生这些推荐的算法。

根据Zhang,Yao和Sun(2017)的说法,RS被认为是一种有用的信息过滤工具,可帮助用户发现他们可能感兴趣的产品或服务,其主要应用包括电影,歌曲,书籍,文件,网站,旅游景点和学习资料的推荐。(Lu,Wu,Mao,Wang和Zhang,2015年)。

Kotkov,Wang和Veijalainen(2016)以及Ricci,Rokach,Shapira和Kantor(2010)将可能推荐给用户的任何内容视为“项目”; 该项目可以指社交网络中的歌曲,电影,书籍,服务甚至朋友。 本文还将这些项目作为RS推荐内容类型的参考。 同样,这些项目可能具有表征它们的属性。 例如,一本书可以通过其类型,主题或作者来表征。

如前面所述,RS可以看作是信息检索的一种特殊情况,其目的是推断一组未知项目对目标用户的依从程度,并生成一系列由相关性排序的项目组成的推荐。

生成推荐的过程可以表征为以下特征的组合:可用于分析用户偏好的数据类型; 相关的过滤算法; 使用的方法(是否基于直接使用数据); 使用的推荐技术(例如,最近邻算法,模糊模型,奇异值分解,生物启发算法等); 以及数据集的离散程度(Bobadilla,Ortega,Hernando和Gutieacute;rrez,2013年)。

在应用用户偏好分析时,了解一组项目与给定用户的相关程度是至关重要的。 如Javari和Jalili(2014),Liu,Hu,Mian,Tian和Zhu(2014)以及Zhang(2017)等人所述,可以通过评级值明确获得此信息。或者当RS通过行为分析(例如计算用户点击屏幕元素的次数或监视用户搜索下载的次数)推断出与用户与项目的相关程度时,可以间接获得该信息。根据Saacute;nchez-Moreno,GilGonzaacute;lez,Muntilde;ozVicente,Loacute;pezBatista和MorenoGarciacute;a(2016)和Lacerda(2017)。

推荐系统可以大致分为基于内容的(CB)或协作过滤的(CF)推荐系统(Beel,Gipp,Langer和Breitinger,2016; Katarya&Verma,2016; Lu 等,2015),下一节将对它进行更详细的讨论,尤其是CF方法,因为它具有很高的知名度和相关性。

本文的其余部分的结构如下。 在第2节中,我们回顾了一些相关性的工作,尤其是关于CF方法的细节。 第3节详细介绍了基于扩散的混合算法,这是我们推荐的基础。 第4节中介绍了推荐方法,第5节中介绍了其实验评估。 最后,第6节给出了我们的结论和对未来工作的启示。

  1. 相关工作

CB和CF都试图根据用户的偏好来确定用户最感兴趣的项目。 但是,每种方法都会根据不同的特定标准执行相同的过程。

CB的基本思想是,用户对与她或他先前喜欢的项目相似的项目感兴趣。CB方法利用项目的一系列离散特征来推荐具有类似特征的其他项目。 CB通过用户提供的数据完成工作,无论是显式(评级)还是隐式(通过单击链接)。 基于这些数据,生成用户画像,然后将其用于提出用户推荐。 随着用户在RS上提供更多输入数据或采取措施,引擎变得越来越精确。

反过来,CF的想法是用户喜欢其他用户喜欢的项目。 CF会根据用户过去的行为(先前购买或选择的物品或赋予这些物品的数字评级)以及其他用户做出的类似决定来构建模型。 然后,此模型用于预测用户可能感兴趣的项目(或项目的评级)。

算法1描述了基本的CF算法,在Ricci(2010),Patra,Launonen,Ollikainen和Nandi(2015)以及Yang,Wu,Zheng,Wang和Lei(2016)等人的文章中有详细介绍。并使用个人相关系数(PCC)(Pearson,1920)计算一对用户之间的相似度。 PCC用于算法1的第4步,可以通过以下方式计算:

(1)

是由u和v评定的一组项目; 和是用户u和v项目i的等级值;和是u和v与之交互的所有项目的平均评分; 其中P C C(u,v)isin;R,-1. 0le;PC C(u,v)le;1.0

在步骤10中,计算算法1:

(2)

其中是用户u与之互动的商品的平均评分; 是类似于u(邻域)的用户集; PCC(u,b)是u和b之间的相似性;是用户b属于项目i的等级; 而是用户b与之互动的所有商品的平均评分。 根据Lu,Shambour,Xu,Lin和Zhang(2013)和Kaminskas and Bridge(2016)| | 介于20到40之间的值被认为可以使推荐结果最大化。

CF算法是应用最广泛的算法(Fu,Qu,Moges和Lu,2018; Wang等,2017; Yang等,2016)。 但是,他们仍然遭受稀疏数据问题的困扰,其特征是系统中存在大量用户和项目,而用户分配给项目的评级却很少。 因此,用户项目评分矩阵非常稀疏。

CB和CF方法的基本概念相当模糊,并为不同方法留有余地(Beel等人,2016; Betru&Onana,2017; Deng等人,2017; Katarina&Verma,2016; Lu等人,2015 ; Wang等,2017; Zeng,Zeng,Shang,&Zhang,2013; Zhang等,2017; Zhou等,2010)。

值得注意的是,基于物质扩散物理过程的推荐显示出有着明显的效果来缓解这一特殊问题(Deng等,2017; Wang等,2017; Zeng等,2013; Zhang&Zeng,2015 ; Zhou 等,2010)。 特别是,Zhou(2010年)等人提出的混合算法可以作为开发几种方法的基础,例如Zeng等(2013),Zhang和Zeng(2015)和Deng等(2017)。 但是,此算法及其变体不会在推荐过程中区分用户的特定偏好。

我们在这里特别感兴趣的是如何确定代表新颖性或受欢迎程度的特定目标用户偏好。 这种个性化的偏好体现在我们提出的新RS算法–UPOD算法 –“面向用户画像的扩散”。 因此,根据用户的喜好,可以将某种程度的新颖性和受欢迎度的组合,指导选择和订购推荐商品。 我们的方法从实验上证明:由UPOD生成的推荐列表比由常用技术生成的列表用户的满意度更高。

需要强调的是,在推荐过程中如果不包括用户画像,系统将无法完全满足用户的偏好,而只能推荐最可预测的内容。

  1. 基于扩散的推荐算法

本节介绍了Zhou(2010年)等人提出的混合算法,该算法基于物理质量扩散过程,并提出了对推荐系统预测不准确难题的的解决方案。 在这个难题中的关键点是找到基于准确性(表示流行性)和多样性(表示新颖性)的方法的适当组合。 他们的算法称为MDHS,结合了质量扩散算法(MD)(Zhou,Ren,Medo,&Zhang,2007)和热扩散算法(HS)(Zhang,Blattner,&Yu,2007)来生成推荐列表。

MDHS将RS系统表示为用户项目二部图,形

式上定义为G = {U,I,E},其中U = {,,... ,},I = {,,hellip; ,}和E = {,, ,}分别是用户集,项目集和图形边缘集。 根据先前已知的训练数据集,构造图G,将每个用户分配给一个顶点isin;U,将每个项目分配给一个顶点isin;I,如果用户与任何项目进行交互, 边isin;E插入到G中,使邻近。此处的交互是指用户购买或评价了给定项目。

对数据库中目标用户u,执行以下三个步骤:

步骤1.将资源值r(u,i)分配给G中的每个项目i,根据以下规则:之间若存在边缘i和目标用户,则r(u,i)= 1,否则r(u,i)= 0。在此步骤中,u是目标用户。

步骤2.通过传播重新分配资源值,从G的项目侧到用户侧,其中目标顶点处的每个用户visin;U都会收到重新计算的新值资源值(v,i)的所有资源值图G中的相邻项目。

步骤3.重新分配给用户的资源值从G的用户侧到项目侧。 每一个项目i收到一个新的资源值r(v,i)在步骤2中重新计算相邻用户的资源值。

步骤2和3中所述的新资源值的计算,根据所相关的算法MD,HS或MDHS以及RS数据库中用户与项目之间的交互关系,分别用(v,i)和(v,i)表示,。交互次数表示的顶点w(u)和w(i)分别是代表用户的顶点的评级u和代表项目i的顶点的评级。

因此,仅考虑MD算法时,第2步和第3步的资源值分别通过以下方式给出:

(3) (4)

相似的,当仅用HS算法时,步骤2和步骤3中所述资源值分别如下

(5)

(6)

图1和2说明了传播程序的应用(步骤1、2和3)分别考虑了MD和HS算法。

在图1中,目标用户是,之前与之交互

项目和。按照MD算法,资源值是使用等式(3)传播到用户端; 在这种情况下,将1/2传播到图中的相邻用户,而传播1/3,结果在处为5/6。在最后一步中,资源是根据等式(4)传播到项目的侧面;例如在项目中的新资源值,是从传播的5/12加上1/6,结果为7/12。

紧接着等式(5)和(6),图2演示了HS算法的传播。 在图中,目标用户是,之前与项目和进行了交互。然后,资源值从项目i传播到用户端,从而导致为1/3(的资源总和除以度数);以及为1/2(从和接收的资源之和除以的度数)。 在最后一步中,资源根据等式(6)从用户传播到项目侧; 例如,项目中的新值是2/3(从传播的1/3的总和与从传播的1的和除以的度数即2)。

值得观察的是,参照图1和图2,MD算法倾向于生成由流行项目构成的推荐(图形中度数较高的顶点),而HS算法倾向于生成由不太流行项目构成的推荐项(图形中度数较低的顶点)。

MDHS算法通过利用参数lambda;将步骤2中的等式(3)和(5)与步骤3中的等式(4)和(6)相结合来实现MD和HS算法的结合:

(7)(8)

当lambda;= 0时,使用HS算法;当lambda;= 1时,使用MD算法。 0到1之间的任何值表示将两种方法结合使用。将lambda;值定义为0le;lambda;le;1,并推荐使用lambda;= 0.5。 在执行上述三个步骤之后,在过程开始时与目标用户u没有任何交互并且接收到正资源值(r(u,i)gt; 0)的任何项目都是按其最终资源值r(u,i)升序排序,并包含在预测列表中。

预测列表中资源值最高的项目将构成目标用户u的推荐列表。 推荐列表包括| L | 项目,并按项资源值降序排序; 第一个位置包含最相关的项目,最后一个位置最不相关的项目。

在RS有关文献中已经提出了MDHS的一些扩展:半局部扩散算法(SLD)(Zeng等,2013)允许在重复G中传播过程。 实际上,在推荐的用户项目结合更加完善时,这意味着第2步和第3步不止一次的发生。

但是,对于所有RS用户,MDHS和SLD算法始终考虑相同的lambda;值,而不考虑有关其画像的任何信息。 这意味着对于每个lambda;值,将为所有用户以相同的MD和HS组合程度生成推荐列表。

我们认为,对所有RS目标用户使用相同的lambda;值,而没有根据其特定用户画像对其进行区分会导致更糟的结果。 在这里,我们提出了一个根据用户画像调整lambda;参数的框架,并将此lambda;参数与MDHS算法结合起来以生成个性化的推荐。 我们的推荐在下一部分中进行描述。

  1. 提案建议

我们提出了UPOD算法–“面向用户画像的扩散”。 在MDHS算法中,UPOD使用特别为目标用户定制的lambda;值,以便为目标用户生成定制的推荐。

图1:用户项目二部图中用MD算法进行的三个传播步骤。 用户用圆圈表示,项目用粗体圆圈表示,目标用户用阴影圆圈表示,最推荐的相关项目用虚线矩形标记(Zhou et al。(2010)的修改图)。

图2:用户项目二部图中HS算法的三个传播步骤。 用户用圆圈表示,项目用粗体圆圈表示,目标用户用阴影圆圈表示,最推荐的相关项目用虚线矩形标记(Zhou et al。(2010)的修改图)。

图3:UPOD算法两阶段

UPOD分为两个阶段:训练阶段和推荐阶段,如图3所示。

训练阶段负责预处理数据,定义用户的特征,构造二部图互

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[239248],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。