基于用户评价的协同过滤方法的实证研究

Tieke He1 ·Zhenyu Chen1 · Jia Liu1 · Xiaofang Zhou2 ·Xingzhong Du2 ·Weiqing Wang

Received: 2 August 2015 / Revised: 10 July 2016 /

Accepted: 29 August 2016 / Published online: 29 September 2016

copy; Springer Science Business Media New York 2016

摘要：基于用户的协同过滤方法已经成功在推荐系统中应用了很多年。基于用户的协同过滤方法的主要思想是发现拥有相似兴趣的用户群体，因此，对用户相似程度的度量是基于用户的协同过滤（CF）的基础。然而，现在的基于用户的协同过滤方法存在数据稀疏的问题，这意味着推荐系统中的用户项矩阵过于稀疏，不能得到最理想的结果。可能缓解这个问题的一个方法就是像基于用户的协同过滤方法（CF）中引入新的数据源。由于社会化标注系统的快速发展，我们转而使用标签作为新的来源。基于这些方法，提出了基于用户主题评分的协同过滤方法（CF），采用不同的话题模型方法，从标签中提取主题。在此基础上，我们通过测量用户对主题的偏好来计算用户之间的相似性。在此基础上，我们通过测量用户对主题的偏好来计算用户之间的相似性。本文采用PLSA、层次聚类和LDA三种基于用户主题评分的CF方法进行了比较。这三种方法都根据用户对项目的评分和主题权重来计算用户的主题偏好。我们使用MovieLens数据集进行实验。实验结果表明，基于LDA的用户主题评分CF和层次聚类算法在推荐准确率方面优于传统的基于用户的CF，而基于PLSA的用户主题评分CF的推荐准确率低于传统的基于用户的CF。

关键词：推荐系统、协同过滤、PLSA、层次聚类、LDA

1 简介

推荐系统[1]在电子商务中发挥着越来越重要的作用。亚马逊1，最大的在线零售商之一，是向客户推荐产品最成功的例子，高达20%的销售来自推荐。Netflix2是最大的在线电影租赁服务提供商之一，它利用推荐系统向用户推荐电影。推荐算法作为推荐系统的关键组成部分之一，已经取得了很大的进展。

协同过滤(CF)[18]是推荐系统中最常用的方法之一。CF的主要思想是相似的用户可以共享相似的用户偏好模式[10]。在CF方法中，我们使用一个评分向量来表示用户的偏好，每个条目表示用户对某一特定项目的评分，然后通过用户评分向量之间的距离来定义用户之间的相似度。由于数据稀疏性的问题，这种相似性度量往往会出现精度不高的问题，同时，快速增加的项数可能会导致计算效率低下。

数据稀疏性是CF的主要问题，当条目的数量远远超过用户所能评价的数量时，就会出现数据稀疏性问题。考虑一个特定的情况，当两个用户之间没有共同评价的项目时，就无法确定相似的程度。很容易理解，随着用户或项的数量增加，用户-项矩阵中的稀疏性也会增加，因此当我们计算几个值之间的相似性时，结果可能不可靠。

随着Web2.0技术的快速发展，社会化标注系统给在线用户和推荐系统带来了极大的便利。研究人员已经介绍了许多在推荐系统中使用标签的方法[12,13]。某些标签总是与一组相对有限的主题相关，并且与特定的项特性相关。例如一部关于智能机器人的电影可能与科幻小说或高科技有关。基于这些事实，我们假设用户喜欢某些条目是因为他或她喜欢这些条目背后隐藏的主题。用户对某件商品的喜爱程度可以通过相关标签评分和该商品与主题的相关性来衡量。基于这一假设，我们使用用户主题评级来增强CF方法。

在用户主题方法中，每个项都被视为一个文档，而项的集合被视为语料库。标签被重新评级为文档的单词。有多种方法可以通过用户主题评级来改进CF，例如一个标签对应一个主题，即本文主要采用概率潜在语义分析(PLSA)和潜在狄利克雷分配(LDA)[3,22]。主题模型是用于发现主题的算法，这些主题遍布于大量的文档集合中，并且在其他方面是非结构化的。主题模型可以根据发现的主题[2]组织集合。在某种程度上,这是常识的主题通常是远低于数量的产品或标签,因此,使用用户主题评级计算用户相似性计算效率比用户项或用户标签评级,它实际上是一种降维的方法在某种程度上。换句话说，我们假设给定的一组条目共享有限数量的主题，这些主题具有不同的项-主题权重，通过这些权重，我们可以推断用户对特定主题的偏好，只要他或她对与该主题相关的条目进行了评级。

概率潜在语义分析(PLSA)[11]是由潜在语义索引(LSA)[6]发展而来的，它定义了一个基于坚实统计基础的生成模型。LDA用于发现项目的主题，生成文档-主题比例、主题-单词比例等一系列分析结果。在我们的案例中，LDA可以将文档-主题比例视为主题与电影之间的相关性。使用这些数据，可以推断用户-主题的评级，然后可以计算用户相似度。

在研究中，我们使用PLSA、分级聚类和LDA对三种不同的基于用户主题的CF进行了实验，并与传统的基于用户主题的CF进行了比较。结果表明，在保持其他因素不变的情况下，基于PLSA的用户主题方法的性能不如传统的基于用户的CF，而层次聚类和基于LDA的用户主题方法的性能优于传统的基于用户的CF，其中基于LDA的用户主题方法的性能最好。

值得一提的是，这篇文章是发表在《the Proceedings of the International Conference on Software Engineering amp; Knowledge Engineering》[9]上的同名论文的放大版。在这个扩展版本:

1. 我们调查了三个流行的主题模型，PLSA, LDA和层次聚类。

2. 基于推断的标签评级，我们选择了两个主题模型，即， PLSA和LDA实现了不同的基于用户主题评级的CF，以及基于层次聚类的CF。

3.将基于用户主题的CF与传统的基于用户主题的CF进行了比较，讨论了基于用户主题的CF的有效性，并证明了基于LDA的用户主题方法具有最佳的性能。

本文的其余部分组织如下。第2节介绍了背景和符号。第3节概述了前面的工作，并描述了基于用户主题的协同过滤如何使用主题模型工作。第4节描述了数据集和实验设置。实验结果和讨论见第5节，结论见第6节。

2 背景和符号

我们首先介绍了基于用户的协同过滤是如何促进推荐系统的，然后是一个关于可以用来缓解协同过滤中稀疏性问题的主题模型的调查。

2.1 基于用户的协同过滤

协同过滤(CF)已广泛应用于商业领域。CF方法包括基于用户的CF、基于项目的CF和其他变体。基于用户的CF的主要思想是相似的用户可以共享相似的偏好。它要求通过用户对商品的评分来计算用户之间的相似度。两个用户之间的相似度越高，意味着他们越相似。

给定用户列表U = {u1, u2，hellip;，un}和项目列表{i1, i2，hellip;，im}，用户u可以表示为其评级向量ru = (ru,1, ru,2，hellip;，ru,m)。ru,i(iisin;(1,m))表示用户u对第i个项目的打分。用户u和v之间的相似度可以通过ru和rv之间的距离来衡量，使用余弦相似度或者皮尔逊相关系数。式(1)为余弦相似度度量，用两个向量夹角的余弦值来度量两个用户的相似度，夹角越大，相似度越小。式(2)为用户u与用户v使用皮尔逊相关系数进行相似度计算。

对于（1）和（2），用户u和用户v的评分项目被称为共同评分项目，G代表用户u和v共同评分项目的集合。u,G和v,G分别代表u和v的评分G的平均水平。一个用户的评价可能有个人偏见，这意味着用户可能总是倾向于给予高或者低评价。Pearson的相关系数有助于缓解这种情况，从每个用户的平均评级中减去他或者她的评级。本研究中，我们重要采用Pearson相关系数来计算用户之间的相似性。

方程（3）演示了如何预测用户对项目i的评级。当对用户u的评级ru进行预测时，i对一个项目i，只考虑了一组由Nsim表示的用户u的相似用户。然后，可以向用户u推荐向，条件是他们的预测评级高于用户u的平均评级或超过某些预定义的阈值。

然而，总有一些项目，用户u以及评级，但用户v没有，或反之亦然。这可能导致不准确，因为太少的共同评级项目，一个新用户谁没有与任何其他用户的共同评级项目可能会使它更糟糕，这被成为冷启动问题。[16]

2.2主题模型

主题模型已广泛应用于数据分析领域，尤其是文本文档领域。与此同时，主题模型的开发也取得了令人瞩目的成功。提出了主题模型的不同变体，以利用具有某些潜在规律性或模式的特征，如LDA和PLSA。下面，我们对这部分工作中用到的一些相关的主题模型进行了调查，它们是:

- 概率潜在语义分析(PLSA) [11]

- 潜在狄利克雷分配(LDA) [4]

- 分级聚类[5]

2.2.1 PLSA

PLSA是最成功和最基本的主题模型之一，她在坚实的统计基础上定义了一个适当的生成模型。

考虑到我们有一个包含N个文档{d1, d2，hellip;，dN}与词汇表中的单词组成M个单词{w1, w2，hellip;，wM}。在PLSA中，特定文档d中出现的单词w与K个未观察到的主题之一{z1, z2，hellip;，zK}相关。更具体地说，PLSA可以定义为以下生成过程:

140/5000

a.选择概率为P(d)的文档d

b.选择一个潜在主题z，概率P(z|d)

c.生成一个概率为P的单词w (w|z)

我们首先通过概率P(z|d)来选择每个文档的潜在主题，然后通过概率P(w|z)来选择每个主题的单词，这样我们就得到了每个主题的“关键词”。通过对潜在主题z的求和，可以计算出观测对(d,w)的联合概率为

然后我们可以计算对数可能性为

式中，n(di, wj)为文档d中出现单词w的次数。根据似然原理，P(w - z)和P(z - d)可以通过最大化(5)的相关部分来确定:

2.2.2 LDA

LDA是最著名的主题模型。它在许多研究领域表现良好。LDA模型是一个生成过程，其中每个文档从特定主题组的分布中抽取，这些主题由文集中的所有文档共享。每个主题都是语料库中包含所有独特词汇的词汇表上的一个分布。给定一组条目作为语料库，其中的每个条目作为文档，条目的标记作为单词。LDA模型的一个基本假设是“单词包”，这意味着可以忽略某个文档单词的顺序。语料库D中每个文档w的生成过程如下:

a .选择Nsim;泊松(xi;)

b .选择theta;sim;Dir(alpha;)

对于每个N单词：

bull; 选择一个主题zn sim; Multinomial(theta;)

bull; 从p (wn |zn、beta;)选择一个词wn，一个以主题zn为条件的多项式概率。

这里，文档是N个单词的序列，表示为{w1, w2，hellip;，wn}，而语料库是M个文档{d1, d2，hellip;，dM}的集合。

原始的LDA是由Blei基于EM算法提出的。Griffiths[7]和Griffiths and Steyvers[8]提出了一种简单的参数估计方法，称为Gibbs Sampling。[14]提出了上述方法的实现，并将其应用于实验中。虽然LDA模型可以同时推断文档-主题分布和主题-单词分布，但是文档-主题分布对于后面的计算是必不可少的。LDA模型假设文档主题分布是从Dirichlet分布中抽取的。根据Dirichlet分布的定义，某篇文献中所有主题概率之和为1。在此定义下，无需对项目主题概率进行规范化，直接将其作为项目主题权值。

基于这些传统的主题建模技术，如潜在分析分配(LDA)和概率潜在语义分析(PLSA)等，提出了主题模型的一些变体。Yin等人[23]提出了TRM来模拟用户在LBSN中的签到活动，同时利用语义、时间和地理模式，模拟它们对用户访问行为的共同影响。Yuan等人利用时间信息以及位置、主题和用户信息对时间感知的个性化主题区域进行建模。Wang等人提出了一个TOT(主题随时间变化)模型，该模型结合单词的共现模式对时间进行建模。TOT参数化了与每个主题相关的随时间的连续分布。Yin等人提出了一种统一的用户-时间混合模型来区分时态主题和稳定主题，该模型可以自动提取具有时态特征的相关文本，并将其聚类为时态主题。

2.2.3 层次聚类

层次聚类是一种简单而实用的聚类算法[17,19]。详细的说，层次聚类主要有自顶向下聚类和自底向上聚类两种类型。当对标签进行层次聚类时，使用共出现作为距离，层次聚类可以得到选择距离的标签的相对集合，这些相对集合可以用作“主题”。在层次聚类中，每个单词或标记只能在一组标记或“主题”中分配。

3 基于用户主题的协同过滤

基于用户主题的CF是对基于用户的CF方法的改进。基于用户主题的CF使用推断的用户主题评级来计算用户相似度，而不是使用稀疏的用户-项目评级。然后采用传统的预测方法为用户生成推荐。本节将详细解释基于用户主题的CF。我们首先使用主题模型来获得项目与主题的比例，然后使用该比例来推断用户主题的评分。由于我们不打算提高主题模型的效率，我们只是通过采用一些经典的实现来利用它们。

3.1主题提取

基于用户主题的CF背后的主要动机是度量用户喜欢某个特定主题的程度。用户主题 CF的关键步骤是提取抽象主题，也称为项目背后的潜在语义。社交注释系统提供了这种便利。在社交标注系统中，用户使用标签来表达他们对物品的个人观点，这使得我们可以从这些标签中提取主题，然后将主题的权重或比例传递给物品。

在本文中，我们尝试了三种不同的主题模型来查看这个基于用户主题的CF是如何执行的，即

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[236266]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

原文和译文剩余内容已隐藏，您需要先支付 30元 才能查看原文和译文全部内容！立即支付

以上是毕业论文外文翻译，课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。

注册

找回密码

基于用户评价的协同过滤方法的实证研究外文翻译资料

1 简介

2 背景和符号

2.1 基于用户的协同过滤

2.2主题模型

2.2.1 PLSA

2.2.2 LDA

2.2.3 层次聚类

3 基于用户主题的协同过滤

3.1主题提取

您可能感兴趣的文章

登录

1 简介

2 背景和符号

2.1 基于用户的协同过滤

2.2主题模型

2.2.1 PLSA

2.2.2 LDA

2.2.3 层次聚类

3 基于用户主题的协同过滤

3.1主题提取

您可能感兴趣的文章