协同过滤的个性化推荐算法研究(附件)

由于网络中信息过载以及缺乏多样性的推荐系统已经难以满足广大用户的需求,本文针对传统推荐系统在多样性方面的不足与缺陷,结合数据挖掘技术,对基于Movielens的协同过滤算法研究提出了一个较为详细的设计方案。本次设计以movielens为数据集,以Matlab为平台进行开发,并对当前主流推荐算法进行概述,着重对协同过滤推荐算法的思想、分类和具体步骤进行介绍。针对不同相似度计算方法对协同过滤在movielens数据集上的推荐效果进行对比,选取准确率最高的相似度计算方法应用于协同过滤算法,最后在协同过滤算法基础上针对个体多样性对该推荐算法进行改进,提出项目类别贡献函数,通过准确率、召回率、列表内相似度和覆盖率这四个指标进行评价,实验结果表明多样性得到了提高。
目录
摘要 1
关键词 1
ABSTRACT 1
KEY WORDS 1
引言 1
1 选题背景 2
1.1 研究现状 2
1.2 研究内容和路线 3
2推荐系统研究综述 4
2.1推荐系统概论 4
2.2推荐算法概述 4
2.2.1基于内容(CBF)的推荐算法 4
2.2.2协同过滤(CF)推荐算法 5
2.2.3混合推荐算法 6
2.2.4基于知识的推荐算法 6
2.2.5基于关联规则的推荐算法 6
2.2.6基于效用的推荐算法 7
2.3协同过滤(CF)推荐算法 7
2.3.1协同过滤(CF)推荐算法思想 7
2.3.2协同过滤(CF)算法分类 7
2.3.3协同过滤推荐算法步骤 9
2.4 评价指标 10
2.4.1 预测准确度 10
2.4.2 多样性 10
3基于项目属性的协同过滤算法 11
3.1 多样性问题产生原因 11
3.2 改进算法 11
3.2.1 改进算法思想 11
3.2.2 关键算法 12
3.3 改进算法步骤及实现 13
3.3.1 基于用户兴趣的协 *好棒文|www.hbsrm.com +Q: ^351916072^ 
同过滤算法步骤 13
3.3.2 改进算法实现 13
3.4 实验结果及评价分析 14
3.4.1 相似度算法分析 15
3.4.2 主要函数、参数和矩阵 16
3.4.3 实验结果 18
4 总结与展望 23
致谢 23
参考文献 24
基于协同过滤的个性化推荐算法研究
引言
引言:随着科学技术与互联网的出现及普及,网络中的信息量迅速增长,信息消费者很难找到对自己有用的信息,而信息生产者也苦于如何让自己生产的信息来吸引信息消费者,用户对信息的使用效率降低,这就是信息过载问题[1]。解决信息过载问题的一个有效的方法就是推荐系统,推荐系统可以在用户历史行为基础上建立该用户的兴趣模型,并从大量数据中找到符合用户兴趣的信息推荐给用户。推荐系统的关键在于推荐算法,推荐算法是分析用户历史行为数据,设计个性化算法,挖掘用户的兴趣,生成推荐列表反馈给用户。传统的推荐算法研究重点一直以来都在精确性方向而忽略了其他指标,推荐系统的评价指标不仅仅是精确性,它还有多样性、安全性、新颖性、用户满意度等这些指标[2]。近年来发现推荐系统的多样性研究亟待解决:许多推荐系统主推荐热门商品,使得推荐类表之中同类物品过多,容易局限用户视野,大大降低了个性化程度和用户满意度。因此,推荐系统多样性问题的研究越来越迫切,也越来越具有现实意义,与此同时,对于多样性和精确性两个评价指标之间如何平衡也是一个难题,由此可见推荐系统多样性问题的研究还有很长一段路要走。
1 选题背景
1.1 研究现状
推荐系统的研究起源于1992年,Goldberg首次提出协同过滤思想并将其应用于Grouplens新闻系统和Ringo音乐系统。1997年,Resnick正式提出推荐系统概念[3]。一直到了2004年,Web2.0技术出现之后,互联网普及速度加快,用户开始主动创造网络信息,比如发豆瓣评论、发微博、网购评价、电影评分等等,基于这些用户产生的历史行为数据,分析用户偏好,设计个性化算法,建立用户兴趣模型,进而反馈用户其喜欢的信息,这就是推荐系统。推荐系统用于预测特定用户是否喜欢特定项目或识别一组k项将对某个用户有兴趣,并且已经用于不同基于网络的应用,包括电子商务,电子学习和电子旅游等等。推荐系统被认为是最受欢迎的网络个性化形式,并已成为信息科学和决策支持系统中一个有前途的重要研究课题。
推荐系统的核心是推荐算法,它作为一门交叉学科,吸引了来自机器学习、数据挖掘、信息检索以及心理学和社会学等方面的许多学者。当前推荐算法主要分为三大类:协同过滤算法、基于内容的推荐算法和混合推荐算法[4]。

图 1 CBF流程图
上图表示的是基于内容的推荐过程,它不需要评分数据信息,它首先在用户的历史行为数据基础上分析出用户喜欢物品的特征,建立一个用户兴趣模型;其次在项目特征基础上建立一个项目特征模型;然后计算项目特征模型和用户兴趣模型之间的匹配度,从而产生推荐。由于文本信息才容易进行特征提取,而音频类信息难以提取,所以,此算法的应用领域比较受限。当前应用此算法的领域包括新闻、书籍、网页等等。

图 2 CF流程图
上图表示的是协同过滤CF的推荐过程。它与基于内容的推荐算法不同,它是建立在用户对项目的评分数据上的推荐。其思想是如果两个用户对同一个项目有着较为相似的打分,则认为这两个用户的兴趣偏好也相似。因此,在用户评分信息基础上建立用户项目评分矩阵,找到用户最近邻居集并计算预测评分,采用TOPN策略把分数最高的项目推荐给目标用户。此算法数据易获取,实现简单,没有特别的限制从而应用很广。当前应用此算法的实例包括Movielens、淘宝、优酷、Grouplens等等[5]。
混合推荐算法就是将两种及两种以上的推荐算法进行混合处理,这样可以避免单独一种推荐算法在应用场景上的缺陷问题。当前混合推荐一共有两种策略[6],其一为分别使用多种推荐算法得出结果,并对结果进行混合;其二是将算法进行混合再计算结果。有研究学者认为混合推荐的效果要比单独使用一种推荐算法要好,但也有人持否定态度。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/417.html

好棒文