社会标签用户协同模型的个性化推荐
摘要:社会标签(social tag)是用户为自己的文章、图片、音频、视频等一系列文件所定义的一个或多个描述,是Web 2.0环境下的一个核心构件。社会标签可以用来实现个性化信息推荐,但标签的质量会影响推荐的效果。针对在标注系统中普遍存在的用户的标注偏差这一标签质量问题,基于现有的用户协同模型和社会标签系统的实证数据,实现了基于社会标注行为的个性化推荐。首先,收集了Flickr这个典型的社会标签系统上2006到2008年的实证数据,并从用户标签数量和标签使用频率两个角度进行了统计分析,发现用户标签数量分布和标签使用频率分布都服从幂律分布,和已有研究完全吻合。然后,根据已有主流标签和用户协同模型的概念,得到了该用户主流标签的权重。最后,基于已有的资源模型得到了500个资源的相对权重,通过计算用户模型与资源模型之间的相似性,实现了基于用户标注行为的个性化推荐,并利用用户参与评分法,对模型推荐效果进行了验证。
目录
摘要 3
关键词 3
一、文献综述 4
(一)社会标签推荐算法 4
(二)研究目的与意义 5
二、数据来源与数据处理 5
(一)数据来源 5
(二)数据处理 6
三、实证数据统计分析 7
(一)、用户标签数量的统计分析 7
(二)、标签使用频率统计 7
(三)系统规范化标签使用情况统计 8
四、用户标注过程中的偏差行为 9
(一)、热门标签分析 9
1、用户41315423@N00 9
2、用户99666442@N00 10
(二)、 冷门标签分析 11
1、用户41315423@N00 11
2、用户99666442@N00 11
(三)、偏差类型的总结 11
四、基于用户协同模型的实现个性化推荐 12
(一)用户协同模型的介绍[10] 12
(二)TFIDF公式 13
(三)实例数据模型实现 13
(四)资源的推荐 14
五、结论与展望 15
(一)结论 15
*好棒文|www.hbsrm.com +Q: ^351916072*
(二)不足与展望 16
致谢 16
参考文献: 17
附录一 Java 解析Flickr数据集程序 18
附录二 Java实现余弦函数相似度计算 21
图 1 实证数据集的部分展现 5
图 2 Flickr数据集部分截图 6
图 3 Flickr数据集部分截图 6
图 4 Flickr数据集部分截图 6
图 5 Flickr用户标签数量的分布 7
图 6 标签使用频率分布 8
图 7 label使用频次.. 8
图 8 label的使用情况. 9
图 9 用户41315423@N00的标签使用频率分布图 10
图 10 99666442@N00的标签频率分布 11
图 11 用户协同模型 12
图 12 算法推荐结果比较 15
表 1 Flickr数据集简单统计 6
表 2 根据热门标签查询的资源返回数对比 10
表 3 基于15823425@N00的用户模型 14
表 4 相似度前十的资源 14
基于社会标签用户协同模型的个性化推荐
引言
社会标签,是Web 2.0环境下的核心构件[1] 之一,是用户为自己的图片、视频、文章、音频等文件所定义的一系列描述,其表示用户分类的资源具有协同性和共享性。社会标签不仅反映资源的内容,同时也能直接反映用户的兴趣、目的等信息,所以,对于个性化推荐系统来说,这是非常有意义的。利用标签可以发展个性化推荐系统中用户偏好信息,寻找兴趣爱好相似的群体,从而解决推荐系统中的用户偏好难获取的问题,提高系统的交互性和准确性。
一、文献综述
(一)社会标签推荐算法
在社会标签系统中,资源、用户和标签是系统的三大信息要素[2],用户的标注行为将这三者结合了起来,对资源的推荐、对标签的推荐都是基于另外两个而进行推荐的。对标签的推荐(Tag Recommendation)是推荐的对象是标签,指用户在进行标注时,,系统自动推荐标签。在用户对相似资源进行标注时,为了避免不合理标签的出现,系统会自动提示与该资源最相符的标签,供用户选择。另一种,对资源的推荐也就是个性化信息推荐[3],通过分析用户的标注行为来了解用户的爱好,从而推荐用户感兴趣的资源信息。
当前,社会标签推荐的推荐算法主要分为基于协同过滤的推荐算法、基于关联规则的推荐算法、基于内容的推荐算法和结合多种算法的混合算法[4]。
在社会标签系统中,可以通过分析用户高频使用的标签之间的关系,来为用户推荐不同的标签。以标签系统的有效组织为出发点,李亚婷等[5] 以学术网摘为例,通过实验数据集对标签的共现网络进行研究,深度发掘了社会网络方法在资源组织上的优势。丛维强等[6]提出一个基于潜在语义分析的三维结构模型,融合了社会网络结构化分析思想计算相应元组权重,应用高维奇异值分解算法(HOSVD)揭示元组的潜在语义关系,最终得到能够体现用户兴趣度元组集,从而实现了个性化标签推荐。
基于内容的推荐算法,主要考虑资源自身属性,从内容中提取关键词[3]。社会标注系统标注资源的类型丰富,包含文本、照片、音乐、URL等等,相比针对网页或者音乐类型的标签推荐,基于文本的标签推荐算法更加成熟。胡蓉等[7]提出了一种无用户参标签推荐算法,通过训练模型求得标签生成词语的概率值,结合标签生成词语的概率值来计算概率分布。
协作过滤的标签推荐是根据用户在资源上的标注行为特征和标签规律确定相似的资源群或用户群,即利用标签来确定相似资源和相似用户,然后利用这些用户群或资源群所使用的标签进行推荐。针对社交网站标签使用情况,尚书杰等[8]分别提出了基于随机跳转模型、基于兴趣传播模型以及基于标签与用户之间相互加强关系的模型。
(二)研究目的与意义
社会标签的质量直接影响到了标签推荐的效率、标签推荐结果等方面。比如,如果存在大量的歧义,就会影响标签在检索时结果的精确率和召回率。社会标签与传统分类方式不同,给用户提供了最大限度的自由。但是,这种自由同时导致了社会标签系统中标签语义模糊和组织混乱。目前,社会标签存在以下几点问题:①社会标签的歧义、多义性;②攻击性的问题;③噪声标签的问题;④数据稀疏和分布不均。蒋翠清等[9]在已有研究的基础上,该方法通过分析大众标注系统中用户标注的潜在语义,引入PLSA模型并对其扩展,消除标签的语义歧义,挖掘用户语义主题,提高推荐精度。
目录
摘要 3
关键词 3
一、文献综述 4
(一)社会标签推荐算法 4
(二)研究目的与意义 5
二、数据来源与数据处理 5
(一)数据来源 5
(二)数据处理 6
三、实证数据统计分析 7
(一)、用户标签数量的统计分析 7
(二)、标签使用频率统计 7
(三)系统规范化标签使用情况统计 8
四、用户标注过程中的偏差行为 9
(一)、热门标签分析 9
1、用户41315423@N00 9
2、用户99666442@N00 10
(二)、 冷门标签分析 11
1、用户41315423@N00 11
2、用户99666442@N00 11
(三)、偏差类型的总结 11
四、基于用户协同模型的实现个性化推荐 12
(一)用户协同模型的介绍[10] 12
(二)TFIDF公式 13
(三)实例数据模型实现 13
(四)资源的推荐 14
五、结论与展望 15
(一)结论 15
*好棒文|www.hbsrm.com +Q: ^351916072*
(二)不足与展望 16
致谢 16
参考文献: 17
附录一 Java 解析Flickr数据集程序 18
附录二 Java实现余弦函数相似度计算 21
图 1 实证数据集的部分展现 5
图 2 Flickr数据集部分截图 6
图 3 Flickr数据集部分截图 6
图 4 Flickr数据集部分截图 6
图 5 Flickr用户标签数量的分布 7
图 6 标签使用频率分布 8
图 7 label使用频次.. 8
图 8 label的使用情况. 9
图 9 用户41315423@N00的标签使用频率分布图 10
图 10 99666442@N00的标签频率分布 11
图 11 用户协同模型 12
图 12 算法推荐结果比较 15
表 1 Flickr数据集简单统计 6
表 2 根据热门标签查询的资源返回数对比 10
表 3 基于15823425@N00的用户模型 14
表 4 相似度前十的资源 14
基于社会标签用户协同模型的个性化推荐
引言
社会标签,是Web 2.0环境下的核心构件[1] 之一,是用户为自己的图片、视频、文章、音频等文件所定义的一系列描述,其表示用户分类的资源具有协同性和共享性。社会标签不仅反映资源的内容,同时也能直接反映用户的兴趣、目的等信息,所以,对于个性化推荐系统来说,这是非常有意义的。利用标签可以发展个性化推荐系统中用户偏好信息,寻找兴趣爱好相似的群体,从而解决推荐系统中的用户偏好难获取的问题,提高系统的交互性和准确性。
一、文献综述
(一)社会标签推荐算法
在社会标签系统中,资源、用户和标签是系统的三大信息要素[2],用户的标注行为将这三者结合了起来,对资源的推荐、对标签的推荐都是基于另外两个而进行推荐的。对标签的推荐(Tag Recommendation)是推荐的对象是标签,指用户在进行标注时,,系统自动推荐标签。在用户对相似资源进行标注时,为了避免不合理标签的出现,系统会自动提示与该资源最相符的标签,供用户选择。另一种,对资源的推荐也就是个性化信息推荐[3],通过分析用户的标注行为来了解用户的爱好,从而推荐用户感兴趣的资源信息。
当前,社会标签推荐的推荐算法主要分为基于协同过滤的推荐算法、基于关联规则的推荐算法、基于内容的推荐算法和结合多种算法的混合算法[4]。
在社会标签系统中,可以通过分析用户高频使用的标签之间的关系,来为用户推荐不同的标签。以标签系统的有效组织为出发点,李亚婷等[5] 以学术网摘为例,通过实验数据集对标签的共现网络进行研究,深度发掘了社会网络方法在资源组织上的优势。丛维强等[6]提出一个基于潜在语义分析的三维结构模型,融合了社会网络结构化分析思想计算相应元组权重,应用高维奇异值分解算法(HOSVD)揭示元组的潜在语义关系,最终得到能够体现用户兴趣度元组集,从而实现了个性化标签推荐。
基于内容的推荐算法,主要考虑资源自身属性,从内容中提取关键词[3]。社会标注系统标注资源的类型丰富,包含文本、照片、音乐、URL等等,相比针对网页或者音乐类型的标签推荐,基于文本的标签推荐算法更加成熟。胡蓉等[7]提出了一种无用户参标签推荐算法,通过训练模型求得标签生成词语的概率值,结合标签生成词语的概率值来计算概率分布。
协作过滤的标签推荐是根据用户在资源上的标注行为特征和标签规律确定相似的资源群或用户群,即利用标签来确定相似资源和相似用户,然后利用这些用户群或资源群所使用的标签进行推荐。针对社交网站标签使用情况,尚书杰等[8]分别提出了基于随机跳转模型、基于兴趣传播模型以及基于标签与用户之间相互加强关系的模型。
(二)研究目的与意义
社会标签的质量直接影响到了标签推荐的效率、标签推荐结果等方面。比如,如果存在大量的歧义,就会影响标签在检索时结果的精确率和召回率。社会标签与传统分类方式不同,给用户提供了最大限度的自由。但是,这种自由同时导致了社会标签系统中标签语义模糊和组织混乱。目前,社会标签存在以下几点问题:①社会标签的歧义、多义性;②攻击性的问题;③噪声标签的问题;④数据稀疏和分布不均。蒋翠清等[9]在已有研究的基础上,该方法通过分析大众标注系统中用户标注的潜在语义,引入PLSA模型并对其扩展,消除标签的语义歧义,挖掘用户语义主题,提高推荐精度。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/905.html