大数据的音乐推荐研究与应用(附件)
摘 要随着现代社会的高速发展,科技发达,信息流通,人们之间的交流越来越密切,每时每刻都会产生了大量的数据。大数据计算技术完美地解决了海量数据的采集、存储、计算、分析的问题。大数据时代的到来,也开启人类社会利用数据价值的一个崭新时代,在此基础上人们对智能推荐系统的个性化和准确性也有了更高的要求,因此大数据技术和智能推荐的结合使得人们可以得到更加准确的个性化推荐。基于大数据的音乐推荐研究与应用的主要功能可以完成不同音乐之间相似度计算,通过计算结果可以进行歌单、歌曲推荐。基本的流程通过Scrapy框架爬取数据,利用大数据技术对爬取的数据进行处理,通过协同过滤对处理好的数据进行相似度计算并显示推荐结果,通过Echarts来对数据结果进行可视化。本设计在windows10系统环境和大数据环境下,采用的开发工具为Pycharm,采用的编程语言为Python,可视化展示通过Echarts工具。经过测试,本设计可以实现音乐推荐的的基本要求,基本实现了对用户的个性化推荐。此音乐推荐采用了成熟的大数据处理技术,增强了大数据技术在智能推荐中的应用,并且将大数据技术与智能推荐算法结合也是未来智能推荐系统的趋势。
目 录
第1章 前言 5
1.1研究背景 5
1.2国内外研究现状 5
1.2.1国内外研究现状 5
1.3研究目的和意义 6
1.3.1研究目的 6
1.3.2研究意义 6
1.4全文组织结构 7
第2章 Python数据挖掘技术 8
2.1 Python数据挖掘简述 8
2.1.1什么是数据挖掘? 8
2.1.1数据挖掘常用算法 8
2.2 Scrapy爬虫框架 8
2.2.1 Scrapy简述 8
2.2.2 Scrapy框架 8
2.2.3 Scrapy工作流程 9
第3章 大数据处理架构Hadoop 10
3.1 Hadoop原理 10
3.1.1 大数据的概念 10
3.1.2 Hadoop的发展演变 1 *好棒文|www.hbsrm.com +Q: &351916072&
0
3.1.3 Hadoop体系架构 11
3.1分布式文件系统HDFS 12
3.2分布式编程模式MapReduce 13
3.3分布式数据库HBase 14
3.4 其他hadoop生态环境工具简介 15
第4章 个性化推荐系统及其基本算法 17
4.1 基于内容的推荐算法 17
4.2基于协同过滤的算法 17
4.2.1基于用户的协同过滤算法 17
4.2 基于物品的协同过滤算法 19
5.1数据爬取 21
5.1.1 爬取流程 21
5.1.2 scrapy框架构建 21
5.1.3 爬虫结构及结果展示 24
5.2数据清洗处理 24
5.3数据建模 26
5.4数据可视化 27
第6章 总结与展望 30
6.1总结 30
6.2 展望 30
附 录 30
参 考 文 献 31
致 谢 32
第1章 前言
1.1研究背景
随着云计算、物联网、社交网络等技术不断发展,并且和我们的日常生活关联越来越紧密。如今很多方面数据不断地增长。在互联网搜索引擎支持下,人们每天能够产生数万TB字节数据。全世界范围的通信主干网一天就传输数万TB字节数据。遍及世界各地数以千计大型商场中的门店每周都要产生数亿次的交易记录。数据产生的量级不断扩大,应用领域的不断扩展和深入,让我们需要去思考如何才能让大数据技术产生的不可忽视的价值更好被人们有效的利用。
大量数据的产生需要我们去发现有效的信息,因此数据挖掘技术应允产生,现在无论是线下的大超市还是线上的商城,每天都会产生TB级以上的数据量。以往人们得不到想要的数据,是因为我们没有太多收集数据的途径,数据库中的数据过于缺乏,而如今仍然不能快速的获得有效的数据,其原因是数据库里面的数据太多了,缺少获取数据库中利于决策的有价值数据的有效方法和操作工作。
一方面是企业内部的不同部门之间是“封闭的”,或者数据系统无法整合到一起,这样就无法及时得到全面准确的数据,就更别谈做分析进而做出正确的决策。另一方面,数据的定量分析是科学决策的前提。但是实施定量分析需要深厚的专业知识,更需要有效的分析工具。一般业务处理系统中的数据分析功能相对简单,通常只能制定各种数据汇总报表,无法实现对数据的深层次分析,不能很好满足决策者的定量分析需求,随之有了数据挖掘技术来解决这些问题。
大数据计算技术出现开启了我们利用数据的新时代。如今人们对推荐系统的个性化和准确性有了更高的要求,因此在大数据技术的支持下,我们可以得到属于我们个人的推荐结果。
1.2国内外研究现状
1.2.1国内外研究现状
1.国外研究现状
20世纪90年代到21世纪,各种技术走向慢慢成熟,其中当然主要包括数据挖掘技术,这个时期也被称作数据挖掘时期。2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。
2006年1月28日,Doug Cutting和Mike Cafarella从他们的网络爬虫项目中分离出MapReduce部分命名为分布式文件系统,并称项目为Hadoop。Cutting发表了他动情地回顾了自己与Hadoop故事,并提出了对未来的展望,2006——2009年,谷歌发表《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》这两篇论文,其论文主要介绍:分布式文件系统(HDFS)、分布式计算系统框架(MapReduce)两个重要技术以及分布式架构(Hadoop)。 [1]
目 录
第1章 前言 5
1.1研究背景 5
1.2国内外研究现状 5
1.2.1国内外研究现状 5
1.3研究目的和意义 6
1.3.1研究目的 6
1.3.2研究意义 6
1.4全文组织结构 7
第2章 Python数据挖掘技术 8
2.1 Python数据挖掘简述 8
2.1.1什么是数据挖掘? 8
2.1.1数据挖掘常用算法 8
2.2 Scrapy爬虫框架 8
2.2.1 Scrapy简述 8
2.2.2 Scrapy框架 8
2.2.3 Scrapy工作流程 9
第3章 大数据处理架构Hadoop 10
3.1 Hadoop原理 10
3.1.1 大数据的概念 10
3.1.2 Hadoop的发展演变 1 *好棒文|www.hbsrm.com +Q: &351916072&
0
3.1.3 Hadoop体系架构 11
3.1分布式文件系统HDFS 12
3.2分布式编程模式MapReduce 13
3.3分布式数据库HBase 14
3.4 其他hadoop生态环境工具简介 15
第4章 个性化推荐系统及其基本算法 17
4.1 基于内容的推荐算法 17
4.2基于协同过滤的算法 17
4.2.1基于用户的协同过滤算法 17
4.2 基于物品的协同过滤算法 19
5.1数据爬取 21
5.1.1 爬取流程 21
5.1.2 scrapy框架构建 21
5.1.3 爬虫结构及结果展示 24
5.2数据清洗处理 24
5.3数据建模 26
5.4数据可视化 27
第6章 总结与展望 30
6.1总结 30
6.2 展望 30
附 录 30
参 考 文 献 31
致 谢 32
第1章 前言
1.1研究背景
随着云计算、物联网、社交网络等技术不断发展,并且和我们的日常生活关联越来越紧密。如今很多方面数据不断地增长。在互联网搜索引擎支持下,人们每天能够产生数万TB字节数据。全世界范围的通信主干网一天就传输数万TB字节数据。遍及世界各地数以千计大型商场中的门店每周都要产生数亿次的交易记录。数据产生的量级不断扩大,应用领域的不断扩展和深入,让我们需要去思考如何才能让大数据技术产生的不可忽视的价值更好被人们有效的利用。
大量数据的产生需要我们去发现有效的信息,因此数据挖掘技术应允产生,现在无论是线下的大超市还是线上的商城,每天都会产生TB级以上的数据量。以往人们得不到想要的数据,是因为我们没有太多收集数据的途径,数据库中的数据过于缺乏,而如今仍然不能快速的获得有效的数据,其原因是数据库里面的数据太多了,缺少获取数据库中利于决策的有价值数据的有效方法和操作工作。
一方面是企业内部的不同部门之间是“封闭的”,或者数据系统无法整合到一起,这样就无法及时得到全面准确的数据,就更别谈做分析进而做出正确的决策。另一方面,数据的定量分析是科学决策的前提。但是实施定量分析需要深厚的专业知识,更需要有效的分析工具。一般业务处理系统中的数据分析功能相对简单,通常只能制定各种数据汇总报表,无法实现对数据的深层次分析,不能很好满足决策者的定量分析需求,随之有了数据挖掘技术来解决这些问题。
大数据计算技术出现开启了我们利用数据的新时代。如今人们对推荐系统的个性化和准确性有了更高的要求,因此在大数据技术的支持下,我们可以得到属于我们个人的推荐结果。
1.2国内外研究现状
1.2.1国内外研究现状
1.国外研究现状
20世纪90年代到21世纪,各种技术走向慢慢成熟,其中当然主要包括数据挖掘技术,这个时期也被称作数据挖掘时期。2003——2006年,非结构化的数据大量出现,传统的数据库处理难以应对,也称非结构化数据阶段。
2006年1月28日,Doug Cutting和Mike Cafarella从他们的网络爬虫项目中分离出MapReduce部分命名为分布式文件系统,并称项目为Hadoop。Cutting发表了他动情地回顾了自己与Hadoop故事,并提出了对未来的展望,2006——2009年,谷歌发表《谷歌文件系统》和《基于集群的简单数据处理:MapReduce》这两篇论文,其论文主要介绍:分布式文件系统(HDFS)、分布式计算系统框架(MapReduce)两个重要技术以及分布式架构(Hadoop)。 [1]
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/266.html