下一代推荐系统: 最新技术和可能扩展的综述外文翻译资料

 2022-08-28 11:52:10

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


下一代推荐系统: 最新技术和可能扩展的综述

IEEE成员Gediminas Adomavicius和IEEE成员Alexander Tuzhilin

摘要-本文概述了推荐系统的领域,并介绍了当前的推荐系统推荐方法通常分为以下三个主要类别:基于内容,协作和混合推荐方法。 本文还描述了当前推荐方法的各种局限性,并讨论了可能的扩展可以改善推荐功能并使推荐系统适用于更广泛的范围应用范围。 这些扩展包括,尤其是对用户和项目的了解的增强,将上下文信息纳入推荐流程,支持多重标准评级,并提供更灵活,更少内容的服务侵入式建议。

索引词-推荐系统,协作过滤,评级估计方法,推荐系统的扩展。

1引言

自从90年代中期,第一篇协同过滤的论文出现之后,推荐系统变成一个重要的研究领域。在过去的十年里,工业界和学术界都做了很多工作去提升推荐系统。大家对这个领域一直有很高的兴趣,因为它是一个很多问题的领域,并且因为大量的实际应用帮助用户解决了信息过载并提供了个性化内容和服务的推荐。比如 Amazon推荐书籍、CD和其他产品,MovieLens推荐电影,VERSIFI Technologies推荐新闻。此外,许多公司也把推荐系统融入了他们的商业服务里面。

然而尽管有很多提升,当前推荐系统仍然有更多可以提升的空间,使得推荐系统更加有效,能够在更广泛的真实商品中进行推荐,包括度假推荐、给某些投资者推荐金融服务、用“智能购物车”在商店里面买东西。这些提升包括许多很棒的方法,比如使用用户行为、被推荐物品的信息、更先进的推荐模型、将上下文信息融入到推荐过程里面、利用多规则打分、提供更灵活少打扰的推荐,这些也依赖于更有效的推荐系统的确定性的测量。

在本文中,我们描述了许多扩展推荐系统性能的不同方法。然而,在此之前,我们将在第2章先展示许多最新的推荐系统。然后我们将在第3章介绍当前不同推荐方法的限制并讨论初步的扩展方法。

2 推荐系统综述

尽管推荐系统的根源可以被追溯到认知科学的大量工作中,近似理论、信息检索、预测理论,它和管理科学也有一些联系,和市场的消费者选择模型有关,推荐系统作为一个独立的研究领域是从90年代中期开始,当研究者开始关注依赖于评分结构的推荐系统问题。一般来说,推荐系统问题是从预测用户没见过的物品评分问题化简而来。直观地说,这个预测通常基于用户给其他物品的打分和一些其他可以被形式化描述的信息。一旦我们可以预测未打分的物品,我们可以推荐最高分的物品给用户。

更正式地说,推荐问题可以被如下定义。令C为全体用户,S为所有可能被推荐的物品,比如书、电影、餐厅。物品S的空间可能非常大,在一些应用里面可能有成百上千或成千上万个,比如推荐书或CD。近似的,用户空间也可能非常大,比如千万级。令u为效用函数utility function,测量物品s对用户c的有用度,即u :C times; S → R,R是所有的有序集合(如,某个区间的非负整数或实数)。对于每个用户cisin;C ,我们想选一个物品s′isin;S,使得用户的效用最大。公式如下:

在推荐系统里,一个物品的效用通常用评分代表,表示了某个用户有有多喜欢某个物品,如John Doe给电影Harry Potter打了7分(10分制)。然而,在早期,一般效用函数可以是一个随机函数,包括利润函数。基于应用,效用函数可以随用户使用改变,在用户打分或者应用计算后改变,也可以用基于利润的效用函数。

用户空间C中的每个元素,可以由用户的画像定义,包括不同特征,如年龄、性别、收入、婚姻状况等。举个简单的例子,画像可以包括单一元素,比如用户ID。相似的,物品空间S的每个元素,可以被一系列特征定义。举个例子,如电影推荐系统,S是收集到的电影,每个电影不仅可以被其ID表示,还可以用名字、类型、导演、发布时间、领衔主演等。

推荐系统的主要问题是,效用u不是由Ctimes; S空间定义的,而只是由它的子集。这就意味着,u要从Ctimes; S空间里被推断出来。在推荐系统里面,评分代表效用,最开始的时候用户之前打过分的物品定义。例如,在电影推荐应用里,用户最初给子集看过的一些电影子集打过分。举个例子,一个电影推荐应用的用户-物品打分矩阵如表1,打分区间1-5。表1中的empty;表示用户没给相关电影打过分。因此,推荐系统引擎需要能够预测empty;位置的分数,根据这些预测给出正确建议。

从已知评分到未知评分的预测通常是通过(a)指定启发式方法来定义效用函数,并通过经验验证其性能;(b)估计效用函数来优化某些性能标准,例如均方误差。

一旦不知道的打分被预测了,真正的推荐系统(一个物品推荐给一个用户)会选择预测打分中的最高者推荐给用户,使用公式(1)。或者,我们可以推荐N个最好的物品给用户,或者给许多用户推荐一个物品。

给没分的打分,可以使用很多种不同的方法预测,比如机器学习、近似理论和不同的启发式方法。推荐系统通常根据它们的评分预测方法分类,在下一章,我们要展示一个在文献中提到的、用于不同推荐系统的分类。推荐系统问题普遍接收的提法首先提于文献【45,86,97】,这个问题被广泛研究至今。此外,推荐系统普遍被分为以下几类,基于推荐系统如何工作分的:

  • 基于内容的推荐系统:给用户推荐的物品是和他之前喜欢的物品相似的
  • 协同过滤推荐系统(CF):给用户推荐的物品是和他喜好相似的人群喜欢的物品。
  • 混合方法:包括CF和基于内容的方法

除了可以预测各个用户将对尚未看到的商品给予评分的绝对值的推荐系统外(如上所述),还进行了基于偏好的过滤工作,即预测用户的相对偏好[22, 35,51,52]。举个例子,一个电影推荐应用是基于爱好过滤技术的,将会注重预测相关电影,而不是个人评分。然而,虽然它组成了大多数流行的推荐系统,但是本文注主要重于基于分数的推荐。

2.1基于内容的方法

基于内容的推荐系统方法,用户c对物品s的效用u(c, s)是基于效用u(c ,si) ,也就是用户c对si的效用,其中si属于S且与s相似。举个例子,在一个电影推荐应用里,为了给用户c推荐电影,基于内容的推荐系统要尝试去理解用户c过去打高分的电影的共性(如演员、导演、类型、主要事件等等)。然后,只有和用户喜好高度相似的电影才会被推荐。

基于内容的推荐,其根本是信息检索和信息过滤的研究。因为早期重要的进步是使用信息检索和过滤的,并且因为一些基于文本应用的重要性,近期许多基于内容的系统都注重使用文本信息推荐物品,比如文档,网站(URL),新闻组的新闻信息。传统信息检索的提升来自于用户画像,包括用户的品味、爱好、需求信息。画像信息可以明确地描述用户,比如通过问卷,或者从一些从之前交易行为学到的隐藏信息。

更一般的来说,令Content(s)为一个物品的画像,即物品s的一些属性特征。通常由物品s的一些特征(内容)提取计算画像,并且画像用来决定推荐适当的物品。因此,像之前提到的那样,基于内容的系统通常用来推荐基于文本的物品,这些内容通常用一些关键词存在系统里。举个例子,外事局的系统由一个基于内容的部分组成,它会给用户推荐网页,是基于网页内容中100个最重要的单词推荐的。相似的,Syskill amp; Webert系统使用文章里128个提供最多信息的词语。单词 kj 在文章 dj里的“重要性”(“信息量”),是由一些用不同方法定义的权重测量wij所决定的。

其中,信息检索中确定关键词的权重的最有名的一个测量方法,是TF-IDF(词频/逆文本频率),下面介绍一下它的定义。假设N是所有可以被推荐给用户的文本的总数,并且关键词 kj 出现在N中的ni文章中。设fi,j为关键词ki出现在文章dj的次数。因此TF i,j是关键词ki出现在文章dj的词频,定义如下:

其中最大值max,是所有关键词kz出现在文章dj的频率反正fz,j计算而来的。然而,有些关键词可能出现在很多文章里面,对区分相关和不相关没有什么用途。因此,通常计算逆文本频率IDFj,结合词频TFi,j。关键词ki的IDF定义为:

因此关键词ki在文章dj的TF-IDF权重定义为:

文章dj的内容被定义为:

在初期,基于内容的系统推荐物品时总是和用户过去喜欢的东西近似。特别是,不同候选物品和用户之前打过分的物品比较,最佳匹配的物品会被推荐的这种情况。更正式的来说,令ContentBasedProfile(c)为用户c的画像,包括该用户的品味和喜好。这些画像是通过分析用户先前看到和评价的项目的内容获得的,通常使用信息检索中的关键字分析技术得到。举个例子,ContentBasedProfile(c)可以被定义为一个权重的向量,其中每个权重wci表示为关键词ki对于用户c的重要性,并且可以使用各种技术,通过计算个人打分内容向量得到。举个例子,一些平均的方法,比如Rocchio算法。另一方面,可以用一个贝叶斯分类器 Bayesian classifier 来预测文章被喜欢的可能性。Winnow算法也被证明可以很好的达到目的,特别是可能存在很多特征的情况。

在基于内容的系统,效用函数u(c, s)被定义为:

使用上述基于信息检索范式去推荐网页、网站URLs或者新闻组的新闻信息,用户c的ContentBasedProfile(c) 和文章的Content(s) 可以被TF-IDF向量和关键词的权重表示。此外,在信息检索中,效用函数u(c, s)通常被表示为一些被和定义的启发式的评分,比如余弦相似测量方法:

其中K为系统中关键词的总数。

举个例子,如果用户c在网上读了很多生物学的文章,那么基于内容的推荐系统技术将能够给用户c推荐其他的生物文章。在这个例子中,因为这些文章中生物学的词汇(比如“基因组”、“排序”、“蛋白质组学”)比别的文章多,因此被定义的ContentBasedProfile(c) 将代表一个有着高权重的词。因此,一个推荐系统使用余弦或者一个相关的相似测量方法时,将对中生物词汇高权重的这些文章s有一个很高的效用u(c, s),生物词汇权重低的文章有很低的效用。

除了传统的基于信息检索的启发式方法,其他技术也被用于基于内容的推荐系统,比如贝叶斯分类器和其他机器学习的技术,包括聚类,决策树,人工神经网络。这些技术和基于信息检索的方式不同,他们不适用启发式的公式计算效用的预测,如余弦相似测试方法,而是以从基础数据,使用统计学习和机器学习技术学出的模型为基础。举个例子,一些网页对于一个用户来说,可以分为“相关的”和“不相关的”,使用朴素贝叶斯分类器去区分哪些没有被划分的网页。更具体地说,朴素贝叶斯分类器可以用来预测:在给出网页上关键词的条件下,网页是否属于某个类(比如:相关或不相关)。公式如下:

此外,假设所有的关键词都是相互独立的,因此,上述的概率正比于:

虽然在许多应用里,关键词独立的假设不一定适用,但是实验结果表明,贝叶斯分类器仍然有很高的准确率。因此,和可以从基础训练数据预测到。因此,对于每个网页,可以由类别和网页最可能属于类别计算得到。

虽然没有明确的解决推荐系统的问题,文本检索已经有许多技术被用于基于内容的推荐系统。一个例子就是自适应过滤的技术,它注重于在识别相关递增文档的时候更加准确,通过一个连续的文档流,一个一个观察文档。另一个例子就是阈值设置,它侧重于确定文档与给定查询匹配的程度,以便与用户相关。其他文本检索的方法在TREC中可以找到。

本章节的后面介绍一下基于内容的推荐系统的一些限制。

有限制的内容分析。基于内容的技术经常被系统物品的显示关联的特征所限制。因此,为了有充分多的特征,内容必须使用一个计算机可以自动分析的格式(如:文本),或者特征被人工分配。信息检索技术在文本抽取特征表现不错,其他领域在自动特征提取方面是一个固有的问题。举个例子,自动特征提取方法对于多媒体数据来说非常困难,比如图形图像、音频、视频流。此外,由于资源的限制,手工分配属性往往是不现实的。

另一个限制内容分析的问题就是,如果两个不一样的物品有着相同的特征,他们是不能被区别开的。因此,因为都是用关键词来表示文本的,如果他们都用一样的词,基于内容的系统不能区别谁好谁坏。

过度特殊化。当系统根据通过用户画像来推荐高分系统的时候,用户只能被推荐和他们打过分的相似物品。举个例子,一个人没尝过希腊菜,所以永远都不会给他推荐希腊菜餐馆,即使这是全镇最好的希腊菜餐馆。这个问题,也被其他领域研究过,解决办法就是随机介绍一些别的东西。比如,在信息过滤的环境下,用遗传算法是一个可能的方法。另外,过度特殊化的问题不仅仅是基于内容的系统不能推荐用户之前没见过的东西。在某些情况下,与用户见过的物品不应该被推荐,比如一样的文章不同的标题。因此,一些基于内容的推荐系统,比如DailyLearner,过滤物品不仅仅依靠他们和用户的喜好不同,还有和之前看过的东西是否过度相似。此外,提供五个冗余措施去评估是否一个被认为相关的文章也包含一些新的信息。总的来说,推荐系统的多样性一般是一个好的推荐系统。理想上地,用户应该有许多选项,而不是同类的替代物。举个例子,把Woody Allen的所有电源推荐给一个喜欢其中一部片子的用户,这可不是一个太好的建议。

lt;

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[405278],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。