英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
基于智能算法的电影推荐系统
摘要: 推荐系统已经在最近几年流行起来,因为它处理了信息超载过多的问题。它从大量的数据中给用户提供最相关产品的建议。在媒体产品、在线合作电影推荐中尝试通过以下方式帮助用户找到他们喜欢的电影,从他们的历史的共同收视率在用户之间捕获精确相似的邻居或电影。然而,由于数据稀疏的情况,随着电影和用户的快速增长,邻居选择正在变得更加困难。在这个论文中,一个基于混合模型,利用改进的聚类K-means与遗传算法相结合进行分割,从而使用户空间得到改变的电影推荐系统是被提倡的。它在稠密的电影人口空间内采用主成分分析(PCA)数据约简技术,这种技术也可以降低智能电影推荐的计算复杂度。在Movielens数据集上的实验结果表明,当和现有的方法相比较时,被提倡的方法能提供更高的准确率,并且产生更可依赖的和个性化的电影推荐。
关键词: 电影推荐 协同过滤 稀疏数据 遗传算法 K-means
- 介绍
在过去的十年中,互联网技术的快速发展导致了可用信息的爆炸式增长。推荐系统作为最成功的信息过滤应用之一,它已成为解决信息过载问题的有效途径。推荐系统的目标是根据用户的历史偏好自动生成推荐条目(电影、书籍、新闻、音乐、cd、dvd、网页),并通过提取有用数据来节省用户的在线搜索时间。
电影推荐的应用最广泛,再加上网上多媒体平台,目标在于帮助客户从一个巨大的电影库中智能地访问首选的电影。在开发新的电影推荐算法和扩展方面,学术界和工业界都做了大量的工作。现有的大多数推荐系统基于协同过滤(collaborative filtering, CF)机制,该机制是近几年发展起来的。它首先收集个人给的电影评级,然后根据“志同道合”、过去品味和喜好相似的个人,向目标客户推荐有潜力的电影。有很多著名的网络多媒体平台(youtube.com, Netflix.com, douban.com)采用CF技术向客户推荐媒体产品。然而,传统的推荐系统总是存在一些固有的局限性:扩展性差、数据稀疏和冷启动问题。许多研究已经开发了基于模型的方法来处理这些问题,并证明了RS中预测精度的好处。
基于模型的CF用用户物品评级来学习模型,然后使用该模型生成在线预测。聚类和降维技术通常用于基于模型的方法来解决数据稀疏问题。由于用户的历史评分数据不足,出现了稀缺性的问题,而随着用户和物品的急剧增长,这种问题变得更加严重。此外,高维评级数据可能导致通过相似度计算难以提取出共同感兴趣的用户,导致推荐效果较差。在文献中,有很多基于模型的推荐系统是通过划分算法耦合开发的,如K-means和自组织映射。聚类的目的是将用户划分为不同的组,形成“志同道合”(最近的)邻居,而不是搜索整个用户空间,这可以显著提高系统的可伸缩性。事实证明,基于聚类的推荐系统在效率和预测质量上都优于纯基于cf的推荐系统。在许多工作中,聚类方法是在数据的整个维度下进行的,这可能会导致一些不准确性和消耗更多的计算时间。总的来说,制作高质量的电影推荐仍然是一个挑战,探索一种合适、高效的聚类方法是在这种情况下的关键问题。
针对上述问题,一种基于混合模型的电影推荐方法被提出了,用来解决高维和数据稀疏的问题。在本文中,我们构造一种优化的聚类算法,对经主成分分析变换后以更密集的轮廓向量表示的用户轮廓进行划分。整个系统包括两个阶段,在线阶段和离线阶段。在离线阶段,在一个相对低维的空间中训练聚类模型,并准备将活动用户定位到不同的聚类中。在在线阶段,根据电影的预测评分,向活跃用户提供排名前n的电影推荐列表。在此基础上,提出了一种改进的K-means聚类算法,即GA- km聚类算法。我们进一步研究了该方法在Movieslens数据集中的性能。实验结果表明,与现有基于集群的CF方法相比,本文方法能够提供更可靠的电影推荐。
本文的其余部分组织如下:第2节简要概述了协作推荐系统和基于聚类的协作推荐。然后我们将在第三节详细讨论我们提出的PCA方法GAKM电影推荐系统的发展。在第4节中,我们描述了在movielens数据集上的实验结果和讨论。最后对本文进行了总结,并对今后的工作进行了展望。
- 相关工作
A.基于协同过滤的电影推荐系统
1992年Tapestry项目引入的推荐系统(RS)是最成功的信息管理系统之一。实用的推荐应用帮助用户过滤大量无用信息,以应对信息过载,提供个性化建议。电子商务已经取得了巨大的成功,使客户获得了首选的产品,提高了企业的利润。此外,为了增强个性化的能力,推荐系统也被广泛部署在许多多媒体网站上,将媒体产品定位到特定的客户。协同过滤(CF)是目前最有效的电影推荐技术,它基于最近邻机制。它是基于这样一种假设,即具有相似历史评级模式的人在未来可能具有相同的偏好。所有“类似于mind”的用户(称为neighbors)都来自于他们的评级数据库,该数据库记录了电影的评价值。目标用户给出的缺失评分的预测可以通过他/她的邻居的加权相似度来推断。
参考文献将CF技术分为两类重要的推荐系统:基于内存的CF和基于模型的CF。基于内存的CF在整个用户空间上运行,搜索活动用户的最近邻居,并自动生成一个推荐电影列表。该方法存在计算复杂度和数据稀疏性问题。为了解决计算和内存瓶颈问题,Sarwar等人提出了一种基于项目的CF,计算项目之间的相关性,形成目标项目的邻域。在他们的实证研究中,证明了基于项目的方法在提供相当的预测精度的同时,可以明显缩短计算时间。
另一方面,基于模型的CF开发了一个预先构建的模型,用于存储基于用户评级数据库的评级模式,可以处理可伸缩性和稀疏性问题。就推荐质量而言,基于模型的CF应用程序的性能与基于内存的应用程序一样好。然而,基于模型的方法在构建和训练离线模型上花费了大量的时间,而且也很难更新。基于模型的CF应用中常用的算法有贝叶斯网络、聚类算法、神经网络和奇异值分解SVD (Singular Value Decomposition)。虽然传统的协同推荐系统有其固有的局限性,如计算可伸缩性、数据稀疏性和冷启动等,但这些问题仍然是影响预测质量的挑战。在过去的十年中,由于RS技术在性能和问题解决能力方面的改进,引起了广泛的关注。
B.基于协同聚类推荐
在电影推荐中,聚类是一种广泛使用的方法,可以缓解可伸缩性问题,并提供相当的准确性。许多研究已经通过实验证明了基于CF框架聚类的好处。聚类算法的目的是将对象划分成簇,使同一簇内对象之间的距离最小,从而识别出相似的对象。作为一种基于模型的CF方法,基于聚类的CF通过预先构建离线聚类模型来提高k最近邻(k- nn)的性能。通常,通过使用聚类技术,可以根据用户的评级相似性将用户分组到不同的集群中,以找到“志同道合”的邻居。然后离线进行聚类过程,建立模型。当目标用户到达时,在线模块分配一个与目标用户相似度最大的聚类,并根据相同的聚类号计算指定物品的预测评级,而不是搜索整个用户空间。
根据的早期研究,CF结合聚类算法是一种很有前途的模式,可以提供准确的个人推荐和解决大规模的问题。但他们也得出结论,基于聚类的CF的良好性能取决于适当的聚类技术和数据集的性质。Li和Kim采用模糊K-means聚类方法对条目进行分组,结合内容信息进行相似性度量,提高了推荐准确度。在他们的工作总结中,表明了所提出的基于聚类的方法能够处理冷启动问题。此外,Wang等人开发了一种行和列模糊聚类的新方法,以压缩原始用户评级矩阵。在Kim和Ahn的研究中,引入了一种新的基于遗传算法的最优K-means聚类方法来实现网络购物市场细分。在市场细分领域,该方法比其他常用的聚类方法如纯k均值聚类算法和SOM聚类算法具有更好的质量,可以作为电子商务推荐系统的一种有前景的工具。
Liu和Shih提出了两种混合方法,利用基于加权的rfm方法和基于偏好的CF方法的优点来提高推荐的质量。在此基础上,利用K-means聚类方法对客户进行聚类。实验证明,该组合模型的性能优于经典的K-NN机制。Xue等人提出了一种新的CF框架,该框架使用聚类技术来解决通用CF中的数据稀疏性和可伸缩性。在他们的工作中,使用K-means算法对用户进行分类,平滑评级矩阵,从而生成缺失的估计值与集群成员相对应的评级。在后者推荐短语,利用聚类结果到活跃用户的社区选择的实验结果表明:该方法在预测方面有显著改进准确性是可行的。Georgiou和Tsapatsoulis开发了一种基因基于算法的聚类方法重叠集群到个性化推荐。
他们的实验结果表明,新的方法在这方面优于K-means聚类效率和准确性。以上工作证明了基于聚类的算法CF系统能显示更准确的预测并且能帮助处理具有可伸缩性和数据稀疏问题。
- 基于PCA-GAKM的协同过滤框架
在本节中,我们旨在开发一种基于混合聚类的模型来提高电影预测准确性,在该模型中,将脱机和在线模块耦合以提出智能电影推荐。传统的CF搜索整个空间以找到目标用户的k个最近邻居,但是,考虑到用户配置文件矢量的超高维性,很难基于相似度来计算相似度以找到志趣相投的邻居,从而导致评分较差推荐因为稀疏。为了解决这个问题,我们的离线聚类模块涉及两个阶段:1)使用PCA技术将特征信息集中到相对较低和密集的空间中; 2)基于转换后的用户空间,建立有效的GA-KM聚类算法。以光流箭头表示的脱机模块用于基于历史评级数据优化用户档案并将其训练到不同的集群中;在线模块是带有黑箭头的实时电影推荐,目标用户的分级矢量输入到该实时电影推荐中,并带有TOP-N电影推荐列表。我们在下面解释细节。
A.使用PCA预处理数据
高空间转换为相对低的空间,在其中承载更密集的特征信息。由于用户评分矩阵的高维度(一开始大多是空的),因此相似度计算非常困难,我们的方法是从基于PCA的降维过程开始的。作为最成功的特征提取技术之一,PCA被广泛用于协作过滤系统的数据预填充和降维。
PCA的主要思想是将原始数据转换为新的坐标空间,该坐标空间由特征值最高的数据的主成分表示。在按特征值从高到低对它们进行排序之后,第一个主成分向量会携带最重要的信息。通常,重要性较低的组件将被忽略,以形成一个尺寸小于原始组件的空间。假设我们有一个用户评分mtimes;n矩阵,其中n维矢量代表用户的个人资料。进行特征值分解后得出n个主成分,并且我们选择了仅第一个d成分(d≪n)保留在新数据空间中,这是基于原始值的90%累积比例的值。结果,准备了来自PCA的简化特征向量,以馈入GA-KM算法进行分类。
B.遗传算法优化的增强型K均值聚类
基于内存的CF系统存在两个主要的常见缺陷:冷启动和数据稀疏。在提高推荐质量和健壮性方面,许多研究工作已经证明了基于集群的CF的好处。本节的目的是提出一种有效的分类方法,以确保具有相同偏好的用户可以落入一个群集中,以生成准确的志趣相投的邻居。我们在这项工作中采用的GA-KM算法可以大致分为两个阶段执行:
K均值聚类
K均值算法由于其简单性,灵活性和计算效率(尤其是考虑大量数据)而成为最常用的聚类方法之一。K-means迭代计算k个聚类中心,以基于距离度量将对象分配到最近的聚类中。当中心点不再变化时,聚类算法将收敛。但是,K均值缺乏选择合适的初始种子的能力,并可能导致分类不准确。
随机选择初始种子可能会导致局部最优解,其次于全局最优。换句话说,在同一数据集上运行的不同初始种子可能会产生不同的分区结果。给定一组对象,其中每个对象是一个m维向量,K-means算法旨在自动将这些对象划分为k个组。通常,该过程包括以下步骤:
- 选择k个初始聚类中心,
- 每个被分配到其最近的聚类中心根据距离度量,
- 计算到一个集群中所有成员的距离的平方和:
其中表示中数据点的平均值,
- 如果没有进一步的变化,则表明算法已经收敛,聚类任务结束。否则,重新计算k个群集的作为新的群集中心,然后转到步骤2。
为了克服上述限制,我们引入了遗传算法与K-means聚类过程合并,以提高指定k附近的分类质量。
遗传算法
遗传算法(GA)受到自然进化理论的启发,自然进化理论以其全局自适应和强大的搜索能力来捕获良好的解而闻名。由于对大型和复杂空间的随机搜索,它可以高效地解决各种优化问题。GA的整个过程都遵循达尔文的自然生存原则,并提供了一种模拟生物进化的机制。遗传算法利用“个体”群体作为染色体,代表给定问题的可能解决方案。每个染色体包含许多基因,这些基因用于计算适应性以确定下一代繁殖的可能性。通常,具有最适值的染色体比不适合的染色体更有可能繁殖。GA通过在预先指定的适应度函数的基础上选择解决方案(染色体)来迭代创建新的种群来代替旧种群。在每个连续的迭代过程中,将执行三个遗传运算符来构建新一代,称为选择,交叉和突变。选择过程会根据其适应度值选择当前种群的一部分来繁殖新一代。Crossover运算符允许彼此交换两个亲本染色体的一部分,以重组为新的后代。突变算子随机改变一个基因的值来产生后代。上述所有运营商都提供了随着时间的推移扩展人口多样性并为其带来新信息的手段。最后,当满足适应
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[405275],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。