聚类分析在电商推荐系统中的应用
本文以阿里天池大数据竞赛提供的初赛数据为载体,在通过数据分析、数据挖掘、特征构建、特征工程等方法对数据中隐含的说明业务本质的信息进行提取后,结合聚类分析尤其是K均值聚类方法实现了对基于内容的推荐模型和协同过滤中基于项目的协同过滤模型的改进。针对基于内容的推荐模型对数据属性依赖较重情况,本文选择用户-商品关系作为推荐依赖的内容对象进行了特征提取,在此基础上结合聚类分析改进推荐模型。针对基于项目的协同过滤模型中计算缓慢、相似度矩阵稀疏性等问题,本文结合聚类分析采用对部分品类进行聚类并提取热门商品,将热门商品作为问题品类下相似度计算的输入数据集,从而提高了针对单个商品的平均推荐相应速度,并且改进了数据稀疏性。两个模型表明聚类分析能够明显改进推荐模型中出现的问题,对于将普通数据挖掘方法和多元统计理论与推荐工程相结合提供了一种思路。
目录
摘要3
关键词3
Abstract3
Key words3
一、引言4
(一)研究背景4
(二)文献综述4
(三)论文研究内容6
二、理论基础7
(一)推荐系统概述7
(二)聚类分析概述9
(三)实验设计9
(四)实验评测指标10
三、数据来源、说明与处理10
(一)数据来源10
(二)数据说明10
(三)数据处理11
四、基于聚类分析实现基于内容的推荐12
(一)模型过程13
(二)结果分析与说明13
五、基于聚类分析改进基于项目的协同过滤模型13
(一)模型过程13
(二)结果分析与说明14
六、结论与不足15
(一)全文结论15
(二)本文的不足15
致谢15参考文献15
聚类分析在电商推荐系统中的应用
引言
一、绪论
(一)研究背景
随着互联网的发展,信息过载(Information Overload)已经成为困扰每个互联网参与者的难题。尤其在移动互联网时代,面对手机等小屏幕 *好棒文|www.hbsrm.com +Q: ^351916072^
终端,运营者如何利用有限的展示界面将信息精确传递给用户以及用户在面对海量的信息时如何快速获取自己想要的数据是信息过载的两个主要表现。推荐系统是解决信息过载的主要途径之一——亚马逊、京东、ebay、天猫等相关企业均大力研究和应用推荐系统以提高流量转化率,其中,国外电商平台亚马逊在商品推荐方面技术领先,并率先将“千人千面”的个性化推荐理念融入其业务法中之中。
图1 推荐系统在电商数据闭环中的位置
同时,推荐系统对于电商平台拓展商品曝光渠道具有重要意义。如图1,将电商平台收集的数据进行集成加工后,供数据挖掘平台挖掘数据潜在价值,再基于产出的数据深层关系构建推荐系统以提高商品曝光是目前电商类平台的标准技术方案。不同资料证明,国外电商平台亚马逊的推荐系统带来的成交比例高达35%。而国内B2C电商天猫商城在2014年的双十一网购狂欢中开始全面采用“千人千面”的个性化推荐技术向用户呈现商品,其推荐技术团队负责人张奇在对外技术分享中提供的数据显示,推荐系统为天猫带来了15%的成交量;同时,其展示的数据显示,在某活动入口页面进行个性化推荐版本实验后,发现该活动的UV(网站独立访客)点击率提升6.32%,UV转化率提升41.55%。由此可见,推荐系统作为数据挖掘和数据闭环对电商业务平台的反作用系统,对于电子商务平台意义重大。
图2 天猫推荐团队负责人对外展示的某活动入口页采用个性化与默认展示的效果对比
聚类分析是数据挖掘四个主要方向(分类、回归、聚类、关联)之一,也是多元统计中的重要内容。对聚类分析在电商推荐系统中的应用进行探究,一方面可以帮助统计、经济类学生开拓统计学知识的应用视野,另一方面也有利于实现不同领域知识的融合,推动交叉学科领域的创新。
(二)文献综述
推荐系统及其原理被广泛应用在电商的商品推荐业务、计算广告业务(搜索引擎和电商的广告投放)以及新闻的个性化阅读灯领域。互联网发展近20年来,产生的推荐算法众多,可以划分为协同过滤、基于内容和知识的模型、社会化过滤等诸多方法。聚类分析在协同过滤、内容过滤等方法中起着不同的作用。在互联网发展早期或项目发展早期,由于数据量较小且推荐技术发展处于起步阶段,在基于人口统计学的推荐和基于内容的推荐中结合聚类算法构建简单的推荐系统是常见的做法。互联网发展导致数据规模越来越大,计算规模逐渐变高,将聚类分析与协同过滤算法相结合以提高数据处理效率是目前业界常用的做法。
推荐系统的研究领域主要集中于解决信息过载问题的个性化推荐系统,本文中以推荐系统代称个性化推荐系统。推荐系统最早起源于美国。1996年Yahoo率先退出了个性化入口My Yahoo。个性化推荐的思想也被应用到计算广告业务中,2007年Google在AdWords广告中添加了个性化元素,据此了解用户的喜好和需求,以更为精确地呈现相关的广告内容,同年雅虎推出类似的SmartAds广告方案。在理论层面,在学界和业界的不断努力下,推荐系统逐渐得到人工智能、数据挖掘、统计学等诸多领域专家和学者的重视,先后形成了基于内容的推荐、协同过滤、基于知识的推荐、基于关联规则的推荐、基于效用的推荐和混合推荐策略等方法和理论,并成功应用于电子商务、音乐、网络电台、视频、游戏、app等诸多领域。
聚类分析(2012)又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘和机器学习(2013)的一个重要算法。聚类分析起源于分类学,随着数学工具和多元分析被引入到分类学中,分类学领域逐渐形成了聚类分析子领域。聚类分析细分方法众多,有K均值聚类、KModes聚类、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。聚类分析不但在商业和统计领域应用广泛,而已也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
作为数据挖掘的子方向之一,将聚类分析等多元统计方法应用于推荐系统是近来推荐系统研究领域的方向之一。国外对于这方面的研究起步较早,国内科研机构也逐渐开展对于统计学和数据挖掘领域的研究,其中,中国人民大学统计学院数据挖掘研究中心是比较早在统计学科下研究数据挖掘的团队。厦门大学黄秋婷(2014)基于大数据条件下个性化推荐等数据挖掘方法对统计学提出的挑战,提出结合聚类分析、关联规则等模型,将统计分析等方法应用到个性化推荐系统中以提高数据处理效率。IBM软件工程师赵晨婷、马春娥(2011)等也认为将聚类分析应用于推荐系统,是减少协同过滤等推荐策略计算量的最优选择之一,并且提出了基于Mahout和聚类分析实现个性化推荐系统的方案。
国外研究方面,Sneha Y.S.和Dr.G.Mahadevan(2011)等人详细研究了各种聚类方法在用户分析中的应用以提高推荐的质量。DietmarJannach(2013)等人在综合研究推荐系统发展基础上,提出推荐系统主要分为基于协同过滤的推荐、基于知识的推荐和基于内容的推荐等,并提出将聚类分析、主成分分析等应用于协同过滤中可以有效提高推荐质量。
而国内,针对基于内存的协同过滤算法在线计算量较大,数据稀疏且可扩展性较低的缺点,王伟、杨宁(2012)等人提出了基于奇异值分解的Kmeans协同过滤算法。张亮(2012)等人提出一种基于聚类分析处理原始信息,引入归属度的概念,将真实用户行为模型转化为兴趣模型从而提高推荐准确率的方法。葛润霞(2008)等人基于蚁群聚类算法,提出了基于内容聚类的协同过滤推荐算法,在研究中,将改进的蚁群组合聚类算法和协同过滤相融合,从而克服了单一使用内容聚类和协同过滤推荐算法的缺点。程岩(2005)等人基于ROCK聚类算法提出了一种基于协同过滤技术的推荐系统模型,可以有效地解决基于协同推荐的数据稀缺性问题。曹洪江(2014)等人提出一种与信息检索领域中的倒排索引相结合并采用“成员策略”的用户聚类搜索算法,缩短了最近邻计算的时间,并且在保证推荐正确性的前提下有效改善协同过滤推荐系统的可扩展性。清华大学高凤荣(2005)等人提出的基于矩阵聚类的协作过滤算法优于传统协作过滤算法,减少了近邻搜索范围,提高了算法的推荐精度。张宜浩(2014)在研究中针对针对协同过滤推荐方法存在计算相似度方式单一等问题,提出了基于距离度量与高斯混合模型的半监督聚类的推荐方法。利用聚类分析的方法替代用户兴趣的相似度计算,且综合考虑了用户行为偏好和商品内容信息。不仅考虑了数据的几何特征,也兼顾了数据的正态分布信息。
目录
摘要3
关键词3
Abstract3
Key words3
一、引言4
(一)研究背景4
(二)文献综述4
(三)论文研究内容6
二、理论基础7
(一)推荐系统概述7
(二)聚类分析概述9
(三)实验设计9
(四)实验评测指标10
三、数据来源、说明与处理10
(一)数据来源10
(二)数据说明10
(三)数据处理11
四、基于聚类分析实现基于内容的推荐12
(一)模型过程13
(二)结果分析与说明13
五、基于聚类分析改进基于项目的协同过滤模型13
(一)模型过程13
(二)结果分析与说明14
六、结论与不足15
(一)全文结论15
(二)本文的不足15
致谢15参考文献15
聚类分析在电商推荐系统中的应用
引言
一、绪论
(一)研究背景
随着互联网的发展,信息过载(Information Overload)已经成为困扰每个互联网参与者的难题。尤其在移动互联网时代,面对手机等小屏幕 *好棒文|www.hbsrm.com +Q: ^351916072^
终端,运营者如何利用有限的展示界面将信息精确传递给用户以及用户在面对海量的信息时如何快速获取自己想要的数据是信息过载的两个主要表现。推荐系统是解决信息过载的主要途径之一——亚马逊、京东、ebay、天猫等相关企业均大力研究和应用推荐系统以提高流量转化率,其中,国外电商平台亚马逊在商品推荐方面技术领先,并率先将“千人千面”的个性化推荐理念融入其业务法中之中。
图1 推荐系统在电商数据闭环中的位置
同时,推荐系统对于电商平台拓展商品曝光渠道具有重要意义。如图1,将电商平台收集的数据进行集成加工后,供数据挖掘平台挖掘数据潜在价值,再基于产出的数据深层关系构建推荐系统以提高商品曝光是目前电商类平台的标准技术方案。不同资料证明,国外电商平台亚马逊的推荐系统带来的成交比例高达35%。而国内B2C电商天猫商城在2014年的双十一网购狂欢中开始全面采用“千人千面”的个性化推荐技术向用户呈现商品,其推荐技术团队负责人张奇在对外技术分享中提供的数据显示,推荐系统为天猫带来了15%的成交量;同时,其展示的数据显示,在某活动入口页面进行个性化推荐版本实验后,发现该活动的UV(网站独立访客)点击率提升6.32%,UV转化率提升41.55%。由此可见,推荐系统作为数据挖掘和数据闭环对电商业务平台的反作用系统,对于电子商务平台意义重大。
图2 天猫推荐团队负责人对外展示的某活动入口页采用个性化与默认展示的效果对比
聚类分析是数据挖掘四个主要方向(分类、回归、聚类、关联)之一,也是多元统计中的重要内容。对聚类分析在电商推荐系统中的应用进行探究,一方面可以帮助统计、经济类学生开拓统计学知识的应用视野,另一方面也有利于实现不同领域知识的融合,推动交叉学科领域的创新。
(二)文献综述
推荐系统及其原理被广泛应用在电商的商品推荐业务、计算广告业务(搜索引擎和电商的广告投放)以及新闻的个性化阅读灯领域。互联网发展近20年来,产生的推荐算法众多,可以划分为协同过滤、基于内容和知识的模型、社会化过滤等诸多方法。聚类分析在协同过滤、内容过滤等方法中起着不同的作用。在互联网发展早期或项目发展早期,由于数据量较小且推荐技术发展处于起步阶段,在基于人口统计学的推荐和基于内容的推荐中结合聚类算法构建简单的推荐系统是常见的做法。互联网发展导致数据规模越来越大,计算规模逐渐变高,将聚类分析与协同过滤算法相结合以提高数据处理效率是目前业界常用的做法。
推荐系统的研究领域主要集中于解决信息过载问题的个性化推荐系统,本文中以推荐系统代称个性化推荐系统。推荐系统最早起源于美国。1996年Yahoo率先退出了个性化入口My Yahoo。个性化推荐的思想也被应用到计算广告业务中,2007年Google在AdWords广告中添加了个性化元素,据此了解用户的喜好和需求,以更为精确地呈现相关的广告内容,同年雅虎推出类似的SmartAds广告方案。在理论层面,在学界和业界的不断努力下,推荐系统逐渐得到人工智能、数据挖掘、统计学等诸多领域专家和学者的重视,先后形成了基于内容的推荐、协同过滤、基于知识的推荐、基于关联规则的推荐、基于效用的推荐和混合推荐策略等方法和理论,并成功应用于电子商务、音乐、网络电台、视频、游戏、app等诸多领域。
聚类分析(2012)又称群分析,它是研究分类问题的一种统计分析方法,同时也是数据挖掘和机器学习(2013)的一个重要算法。聚类分析起源于分类学,随着数学工具和多元分析被引入到分类学中,分类学领域逐渐形成了聚类分析子领域。聚类分析细分方法众多,有K均值聚类、KModes聚类、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。聚类分析不但在商业和统计领域应用广泛,而已也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
作为数据挖掘的子方向之一,将聚类分析等多元统计方法应用于推荐系统是近来推荐系统研究领域的方向之一。国外对于这方面的研究起步较早,国内科研机构也逐渐开展对于统计学和数据挖掘领域的研究,其中,中国人民大学统计学院数据挖掘研究中心是比较早在统计学科下研究数据挖掘的团队。厦门大学黄秋婷(2014)基于大数据条件下个性化推荐等数据挖掘方法对统计学提出的挑战,提出结合聚类分析、关联规则等模型,将统计分析等方法应用到个性化推荐系统中以提高数据处理效率。IBM软件工程师赵晨婷、马春娥(2011)等也认为将聚类分析应用于推荐系统,是减少协同过滤等推荐策略计算量的最优选择之一,并且提出了基于Mahout和聚类分析实现个性化推荐系统的方案。
国外研究方面,Sneha Y.S.和Dr.G.Mahadevan(2011)等人详细研究了各种聚类方法在用户分析中的应用以提高推荐的质量。DietmarJannach(2013)等人在综合研究推荐系统发展基础上,提出推荐系统主要分为基于协同过滤的推荐、基于知识的推荐和基于内容的推荐等,并提出将聚类分析、主成分分析等应用于协同过滤中可以有效提高推荐质量。
而国内,针对基于内存的协同过滤算法在线计算量较大,数据稀疏且可扩展性较低的缺点,王伟、杨宁(2012)等人提出了基于奇异值分解的Kmeans协同过滤算法。张亮(2012)等人提出一种基于聚类分析处理原始信息,引入归属度的概念,将真实用户行为模型转化为兴趣模型从而提高推荐准确率的方法。葛润霞(2008)等人基于蚁群聚类算法,提出了基于内容聚类的协同过滤推荐算法,在研究中,将改进的蚁群组合聚类算法和协同过滤相融合,从而克服了单一使用内容聚类和协同过滤推荐算法的缺点。程岩(2005)等人基于ROCK聚类算法提出了一种基于协同过滤技术的推荐系统模型,可以有效地解决基于协同推荐的数据稀缺性问题。曹洪江(2014)等人提出一种与信息检索领域中的倒排索引相结合并采用“成员策略”的用户聚类搜索算法,缩短了最近邻计算的时间,并且在保证推荐正确性的前提下有效改善协同过滤推荐系统的可扩展性。清华大学高凤荣(2005)等人提出的基于矩阵聚类的协作过滤算法优于传统协作过滤算法,减少了近邻搜索范围,提高了算法的推荐精度。张宜浩(2014)在研究中针对针对协同过滤推荐方法存在计算相似度方式单一等问题,提出了基于距离度量与高斯混合模型的半监督聚类的推荐方法。利用聚类分析的方法替代用户兴趣的相似度计算,且综合考虑了用户行为偏好和商品内容信息。不仅考虑了数据的几何特征,也兼顾了数据的正态分布信息。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jmgl/scyx/1048.html