面向用户个性化推荐的协同过滤算法研究外文翻译资料

 2022-09-18 17:39:17

英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料


摘要——自动推荐系统已经成为电子商务的基石,特别是在基于互联网用户参与和互动的Web 2.0受到极大欢迎之后。协同过滤(CF)是一个在行业中正变得越来越重要的推荐系统,由于互联网的发展,这使得有用的信息更加难以被有效地提取。在本文中,我们介绍了不同CF的分类系统并且我们讨论最相关的隐私保护协同过滤(PPCF)方法在文献中。为了了解在PPCF中固有的挑战,我们还进行了关于这种推荐系统目前的势头和主要缺点的概述,并提出一些方法来克服的缺点。

关键词:隐私保护,协同过滤,电子商务,推荐系统。

引言

推荐系统是由从数据库中发现的知识(KDD)衍生而来。目前,推荐的最大来源是互联网。一方面,互联网十分有用地为潜在的买手提供了丰富的信息,包括种类繁多的产品和服务。另一方面如此大量的信息可能会成为一个负担,而不是一个解决方案,因为它可以阻碍决策。协同过滤(CF)是一种基于已经获得和/或评估这些项目的用户喜好,对项目(例如书籍,音乐,或电影)产生建议的推荐系统。CF能便于在数字环境中提供自动建议。它是整个网络的积极存在:

  1. 电子商务公司(如亚马逊,eBay,巴诺)利用协同过滤以有效地获得收益。
  2. CF是Web 2.0的概念的一部分,Web2.0被定义为使用网络的新方式。这种新趋势高度重视在基础设施中的积极用户参与(如博客,社交网络和信息和服务的门户网站)。
  3. 它是用来分析信息的偏好。例如,由用户访问过的网站可以监测并用于为其他具有相似行为的用户推荐类似的网页。
  4. 它被广泛用于音乐和音像的背景下,例如Last.fm,mystrands,Netflix和Moviefinder一样的网站充分利用协同过滤为用户提供建议,也给企业提供一个清晰的市场研究。

协同过滤算法使用大型数据库,其中存储了大量用户的已购买商品的信息。这些数据模型由N个用户和M个项目和每个单元矩阵(Ni,MJ)组成,用来存储用户对项目j的评价i。这些存储的评分是通过一定范围的值表示(例如,0至10),或仅仅用二进制表示,例如在市场购物篮数据库中它可以是正或负(或购买和不感兴趣)。表一显示了一个玩具协同过滤矩阵的小例子。在文献中有许多引用数据库的协同过滤例子,如:EachMovie,MovieLens,Jester,和Netflix Prize的数据。这些通常被用来作为评估协同过滤算法的效率,质量和稳定性的基准。

由协同过滤算法产生的推荐是基于兴趣相似的用户将对同一产品感兴趣的假设。因此,如果UA和UB是相似的用户,则用户UA购买的项目可以被推荐给用户UB,。此外,还有基于相似项目而产生推荐的方法。因此,许多相似用户或者相似项目形成了邻居。

根据产生推荐所使用的数据,协同过滤算法最新被分为三大类:基于内存的方法(使用包含所有评级的全矩阵),基于模型(使用统计模型和函数的数据矩阵,但不是完整的数据矩阵)和混合方法(结合了以前的基于内容的推荐方法)。在基于内存的协同过滤算法中,推荐由2个步骤产生:邻域搜索和推荐预测。给定一个用户的UA,相关函数和距离函数来计算其邻域。最常用的相关函数是皮尔森相关函数,余弦相似性和欧氏距离。用户之间的相似性也可以以更有效的方式来计算,即根据他们投票时的行为。这方面的例子是在[ 9 ]所示,其中用户的倾向被计算了出来,或在[ 10 ],其中用户之间的相似性被隐秘地计算了出来。通常情况下,应该有足够数量的常用的项目才能计算用户之间的相似性。一旦我们构造好了用户UA的相近邻,我们可以通过提出的算法产生推荐,例如在[ 11 ]和[ 5 ]。这些方法可以用来预测投票或产生项目UA的Top-N推荐。

基于模型的协同过滤算法从全矩阵上建模以产生推荐。这些算法的出现是基于内存的协同过滤算法在可扩展性,计算的复杂稀疏性性方面上的局限导致的。一些降低矩阵维数的知名算法是奇异值分解(SVD)1和主成分分析(PCA)2。然而,利用降维的算法可能会影响建议的质量,因为它们降低了数据的使用范围。基于模型的协同过滤算法有非常多钟:降维的方法(SVD,RSVD,改进RSVD,NSVD2和S VD ),线性回归法,聚类方法和贝叶斯网络模型以及其他。

混合协同过滤算法结合基于内存和基于模型的算法,从某种意义上来说它保留了所涉及算法的优点并且最大限度地减少缺点和不足之处。这些例子都是人格诊断和基于内存的概率模型。混合算法也可通过基于模型、基于内存和基于内容的推荐器系统的组合获得,例如:Filterbots, Fab and Ripper。

无论使用的哪种协同过滤算法,构成的推荐系统都有很多的局限性。一些最重要的限制是稀疏问题,可扩展性,冷启动,先令,同义性,贿赂,复制配置文件攻击,缺乏隐私。

在过去几年中,信托制度的使用度在互联网上逐渐增多。信托声明定义为通过关于一个用户对另一个用户在某些特征上的可感知的质量所做出的明确意见。信托概念被广泛使用,例如,在采用全球信任度的搜索引擎如谷歌,以及,在电子商务(ebay.com)领域,用户购买产品后对其评价满意程度。

每个用户所表达的信任语句可以被收集以产生一个社区或所见邻里,例如在社交网络。由于用户评分等级稀疏,因此不太可能经常发现相似用户。通过在网络信任中对基于信任的启发式的应用,我们可以发现对于活跃用户最值得信赖的一个用户。我们可以结合信任网络所提供的信息与协同过滤算法矩阵形成一个信托感知推荐系统,它能更好的处理数据稀疏,冷启动用户和假身份问题。除了效益,信任系统同样有问题,例如争议用户的问题,它可以通过使用本地信任度量被最小化。

本文的贡献是双重的:它首先介绍现有协同过滤算法和最相关的隐私保护协作过滤(PPCF)算法的分类。其次,讨论了目前这些方法的缺点,并提出了新的改进。本文的其余部分安排如下。第二节介绍了PPCF目前的趋势并且分类了文献中的最相关算法。第三部分讨论HCF的开放性问题并制定新的目标和战略以设计协同过滤系统。最后,第四节总结全文,并为今后的研究提供了方向。

II.隐私保护协同过滤算法

如前所述,协同过滤在互联网上的广泛应用为企业和用户提供了巨大的机会和利益,但有一个主要的缺点:缺乏用户的隐私信息。隐私在协同过滤系统的重要性是通过不断增长的每个用户信息被收集并存储的速度所强调。个人信息的不小心管理,除了是非法的,可能会导致信息被存储的用户以及业务产生严重的后果。

协同过滤系统只要问题之一是相信偏好/配置文件可能会暴露客户,并且不给他们在特定的项目的评估,或者给定错误或扭曲的评价。这种由于缺乏隐私感而产生的用户行为,使得评估数量变少,质量变低。另一个缺点是,企业可以在特定市场获得了不少用户的喜好的数据,如果他们决定将业务扩展到其他市场,那么比起新的竞争者,他们能得到一个很大的优势。另一位用户的缺点是垄断企业的存在于大型互联网(谷歌,亚马逊),所以它们的数据可以以不同的形式传输,而没有用户的意识。

有趣的是,虽然隐私协同过滤算法混淆和/或隐藏的用户配置文件信息,这是网络中的一个非常普遍的事实,类似的用户群体的创建可以成为一把双刃剑。首先,在特定情况下用户可以很容易地从社区项目找到可靠的建议。第二,在网络中它可能会产生同质问题,更具体是价值同质问题,恰恰由于该组的一致性使得区域的上下文之外所提建议没有意义。为了解决由私人信息的系统收集而产生的需要正确使用协同过滤算法的隐私问题,当前研究主要集中在隐私保护协同过滤(PPCF)算法。

在一个动态的市场中,例如互联网,公司可能为了他们的客户能获得更好的建议而有兴趣合作。由于隐私和企业的关注,数据不应该在公司之间泄漏。在这种情况下,数据可能会以不同的方式划分于各个方面:

垂直分区(VP),企业拥有不相交的集合的项目,但具有相同的用户。

水平分区(HP),在各方中不相交的用户组对同一项目的意见。

任意分区(AP),数据分布没有固定模式。如果整个集是定义为Mtimes;N的用户-项目矩阵,设A的子集malt;=m,则mb=m-ma,注意VP和HP是AP的具体案例。这是在电子商务中最切实的方案,其中商户在同样的背景下提供不同的产品和用户对于待定数目的不同公司感兴趣。

如文献中所示,有好几种方式来保护数据库中的隐私。为了使大型数据库中的存储数据匿名化,我们可以想办法来提供k-anonymity模型。由于其有趣的性质,因特网广泛使用公钥密码体制同态,安全多方计算和加密协议。其他以最小可能性影响矩阵的统计特征的方法增加了数据的噪声因而篡改它们的值,例如用户和制品的平均评分。

在接下来的小节中,我们根据信息到集中方式和分散方式的位置接近提出了PPCF的分类,并且在每个类别中总结了最相关的方法。

  1. 集中PPCF方式

如果PPCF方法在用户或实体之间使用第三方作为中间计算则PPCF方法是集中方式。如果评分被存储在单个用于计算推荐和预测的服务器中,这种方法也被认为是集中的。如果数据被划分则认为不集中,因为数据被分配到了不同各地方。

在文献中提供了许多集中式PPCF方法的方案。一个明显的例子就是波拉特等人提出的方法。在[24]中,它展示了能使得保密性和建议质量之间取得良好平衡的技术。由于隐私问题,中央服务器不应存储真实用户的数据。为了避免泄露真实用户的存储信息,在它们被发送到服务器之前,用户通过遵循高斯分布添加随机向量,篡改她的数据。进行模糊处理数据时,服务器决定一个用户已知的范围[-x,x],来截断由高斯分布产生的随机值。然后,用每个已评分的用户Ui来计算标准分数 Zij。最后,每个UI 在[-x,x]范围中产生分数Ni的随机数Rij。在这之后,每个UI合计随机数到评分的标准分数,并产生变相标准分数Z IJ = Zij RIJ。随后,用户发送变相标准分数值到服务器。获得各种用户的变相标准分数值Z IJ后,服务器能够发送活跃用户所需要的汇总信息来计算局部性的预测。

在更近期的工作中,为了提高计算速度和效率,波拉特等人提出了一种使用奇异值分解来减少原始矩阵维数的方法。其目的是利用具有改善特性的新矩阵例如减少数据分散,来进行预测。

在[26]中,Zhang等人提出了一种基于项目的PPCF方案,其为了保护用户的隐私而对评分增加噪声。在这种情况下,扰动是在推荐过程中产生的,而不是已经使用的经典不变项扰动,例如,在[24],[25]文献中所示。

根据数据混淆,我们发现了拉梅瓦朗等人提出的最近邻数据替代方法(NeNDS)。该方案采用了以不同的源结合数据来获得足够的信息的CF处理器,以更好地处理数据稀疏。该方案假定实体有三种类型的数据库:用户信息,项目信息和评级信息。在这种情况下,数据库被混淆并发送给中央服务器,中央处理器执行数据聚集,并返回新值的数据库到每个源。为了保存每个数据库内容的属性,每个字段被分别处理并且类似物品将进行排列以混淆数据。这样做的好处是在不影响其子组值的情况下获得模糊数据库。先前模糊可能是在隐私条款方面很薄弱。由于这个原因,一旦获得了混淆数据库,作者可以利用几何变换(缩放,旋转和平移),因为它们即保留了数据库子组和也保留了元素的间距。

  1. 分散PPCE方式

所有利用分布网络元素来执行中间计算和对项目评分的预测的方法,可以被分类为分散PPCF方法。这些部件在大多数情况下是作为用户。采用分散方案通常可以确保比在集中式系统的情况下暴露的信息信息要少得多,但这需要使用昂贵的协议和更复杂的计算。通常情况下,用户在分散PPCF方式中存储自己的评分。众所周知,有分区数据方案的PPCF,涉及各方共享他们的数据以执行CF产生更多推荐,也被认为是分散的方法。

具有分区市场篮数据库的几种方法已在文献[28] - [30]中提出。由于其二进制评级内容,这些类型的数据库适合高精度、低计算成本地产生TOP-N建议。尽管如此,绝大多数的先进技术专注于用数字评分的PPCF上。

在文献[31]中,波拉特等人提出来一种利用APD的基于项目的PPCF方法,其中APD具有离线和在线阶段以提高整体效率。离线阶段是指模型的构建,这是基于项目的邻居构建。隐私保护协议是用来保护用户的数据,它使用的是数据扰动同态加密。这些协议被用来在各方中计算和交换必要的信息以构建模型。一旦模型建造完成,可以使用活跃用户UA数据和已构建的模型来产生在线建议。

在文献[32]中,雅库特等人提议使用SVD来在水平和垂直方向上的已分配数据进行PPCF算法。当数据被分配到P和Q两家公司时,他们分别具有RP和RQ矩阵,作者需要处理四个主要的问题以进行全矩阵的SVD处理,定义为R= USV T。这些问题包括,除去R的稀疏性,评分正常化,计算RTR,以及找到U的列向量。他们使用隐私保护协议来计算并安全地交换所有有关的数据。最后,双方都有已预测的UP,SP和VP矩阵,然后可以构造SVD模型进行预测或建议TOP-N给用户。

此外还有一些包含信托感知系统的隐私保护方法,如文献[33]中所示。这里,Dokoohaki等人描述了泄漏信任网络数据的问题,因为该信息可能暴露用户的行为和群体。为了避免这种情况,他们介绍了一种被认为是分散式的方案,因为信任计算是由每一个用户局部产生的。

隐私保护信托感知系统同样被提议使用VPD方法。文献[34]提出的方案是由离线和在线阶段组成。首先,离线方法用于计算隐私用户之间的局部信任度。这些数值进行计算之后,基于距离的私有排序算法(DPSA)被用来确定每个用户的附近项。K的邻居将由其最新人的用户组成。在离线过程中,双方使用DPSA协议n次以确定所有的n个用

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[148518],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。