网络爬虫在豆瓣电影数据分析中的应用(源码)【字数:7553】
摘 要随着生活质量的提高,看电影逐渐成为人们日常消遣的绝大部分选择。人们在选择观看哪一部电影时,也会先在网络中查看其他观影者对电影的评价。网络爬虫在豆瓣电影数据分析中的应用,基于网络爬虫技术和Java语言,实现一个电影数据分析Web系统,能够查看正在上架以及已经下架的电影信息,并将正在上架的电影按照电影评分进行排行展示。系统分为网络爬虫和Web应用两个部分。网络爬虫分成三个模块下载模块、解析模块、入库模块。通过种子URL获取到正在上架以及已经下架电影的基本信息,存入MySQL数据库。Web应用部分是基于SSM(Spring MVC、Spring、MyBatis)框架,运用JSP技术和Tomcat服务器来完成对于数据的展示。
目 录
第一章 绪 论 1
1.1 网络爬虫的发展 1
1.2 豆瓣电影的意义 1
1.3 研究的背景和意义 1
第二章 开发技术简介 2
2.1 Tomcat简介 2
2.2 MySQL简介 2
2.3 JavaScript简介 2
2.4 SSM框架简介 2
2.4.1 Spring MVC简介 3
2.4.2 Spring简介 3
2.4.3 MyBatis简介 3
第三章 技术详解 4
3.1 爬虫原理 4
3.2 爬行策略 5
3.3 技术应用 5
3.3.1 多线程技术 5
3.3.2 爬虫队列 6
第四章 电影数据分析Web系统的总体设计 7
4.1 总体概要设计 7
4.2 网络爬虫设计 7
4.3 数据库设计 8
4.4 数据展示设计 9
第五章 电影数据分析Web系统的实现和测试 10
5.1 网络爬虫的实现 10
5.1.1 下载器(DownLoad) 10
5.1.2 解析器(Parse) 10
5.1.3 入库(Storage) 11
5.1.4 工具类(Common) 11
5. *好棒文|www.hbsrm.com +Q: &351916072&
2 网络爬虫的测试 11
5.2.1 下载器测试 11
5.2.2 解析器测试 12
5.2.3 入库测试 13
5.2.4 工具类测试 13
5.3 数据采集测试 14
5.4 Web前台展示测试 15
结束语 18
致 谢 19
参考文献 20
第一章 绪 论
1.1 网络爬虫的发展
网络爬虫是用于一个自动获取网页信息的程序,它按照预先设定的要求穿梭网络[1]。并且同时还会自动采集所需要的信息,对结果进行分类和整理,然后将总结后的结果提交给用户,以便用户能够方便快捷的查找有用的信息[2]。
网络爬虫于一九九三年由麻省理工学院提出,并被称为“万维网漫步者”[3]。直到一九九四年七月,这段程序才被接入到索引程序中,并且形成了历史上的第一个搜索引擎Lycos[4]。随着技术的发展,大规模搜索引擎的出现使得网络爬虫的代码以及结构也变得越来越复杂。网络爬虫也在慢慢向多策略、负载均衡及大规模增量抓取等方向发展。发展到现在,网络爬虫大致成型。
1.2 豆瓣电影的意义
豆瓣电影目前已经成为电影评价电影水准的一个标杆。豆瓣电影评分体系的准则是“尽一切可能还原观影大众对一部电影的平均评价”。而豆瓣电影之所以能够作为国内观影风向标坚持到现在,是基于豆瓣网的用户社区和非一般的评分体系。
豆瓣电影与一般电影评分体系的区别在于它是以观影者的主观想法为评定标准。每个人对于同一事件或者同一物体往往都会持有不同的看法。所以不同的观影者对于同一部电影的评价也往往持有不同的态度。而对于豆瓣电影,社区用户对于电影的评分和评价则是网站的主要关注点。这不仅仅体现了观影者主观对于电影的鉴赏力和理解力,更是在一定程度上成为了评分网站的营销手段影响着其它观影者对于影片水准的判断。与传统的论坛不同,豆瓣网很少干预用户的言行自由。所以用户可以相对自由的发表对于电影的主观看法,并不需要顾虑其他内容。这种大众化的评分体系相较于职业影评人也更易被普通观影者所接受与承认。综上所述,豆瓣电影相较于一般的电影评分网站更具有普遍意义。
1.3 研究的背景和意义
随着社会的发展和观点的改变,人们在日常生活中更注重于提高生活质量。看电影也逐渐成为了人们日常消遣的大部分选择。人们在选择观看哪一部电影时,也会先在网络中查看已经观看过电影的观众对电影的评价。所以豆瓣电影的出现极大的方便了人们对于电影的选择,可以更加准确和快速的选择观看的电影。观影者可以在豆瓣电影平台上看到电影的评分以及电影的基本信息。
而本系统正是通过网络爬虫技术收集电影的评分以及基本信息,以便用户可以快速查询所需电影信息。同时大数据是当前技术发展的趋势,而网络爬虫作为大数据的重要组成部分,更是需要大家去学习与研究。
第二章 开发技术简介
2.1 Tomcat简介
Tomcat服务器是一个免费的开放源代码的轻量级的Web应用服务器。因为Tomcat的先进技术以及高稳定性,因而得到了大多数软件开发商的一致认可,又由于Tomcat服务器是免费的,所以更受到了广大Java开发者的偏爱。而且Tomcat服务器它不仅仅只是一个Servlet和JSP的容器,它同样可以处理静态页面、HTML页面。所以,本系统的Web应用部分就部署在了Tomcat服务器上。
2.2 MySQL简介
MySQL是一个关系型数据库管理系统[5]。它是由瑞典的MySQL AB公司开发出来的,之后该公司被Oracle公司收购,MySQL数据库也就自然而然地变成了Oracle旗下的一个产品[6]。MySQL是当下最流行的关系型数据库管理系统之一。MySQL可以被称为在Web应用方面最好的应用软件,它的创新之处在于将数据保存在不同的表中大大提高了灵活性。
MySQL所使用的数据库语言都是常用的SQL语句,与其他数据库并没有太大的区别。MySQL数据库还具有体积小、速度快、总体拥有成本低等特点,尤其是具备开放的源码这一特点。因为本系统需要在页面展示数据,所以有Web应用部分。又因为MySQL可以说是Web应用方面现下最好的应用软件,因此采用了MySQL数据库。
目 录
第一章 绪 论 1
1.1 网络爬虫的发展 1
1.2 豆瓣电影的意义 1
1.3 研究的背景和意义 1
第二章 开发技术简介 2
2.1 Tomcat简介 2
2.2 MySQL简介 2
2.3 JavaScript简介 2
2.4 SSM框架简介 2
2.4.1 Spring MVC简介 3
2.4.2 Spring简介 3
2.4.3 MyBatis简介 3
第三章 技术详解 4
3.1 爬虫原理 4
3.2 爬行策略 5
3.3 技术应用 5
3.3.1 多线程技术 5
3.3.2 爬虫队列 6
第四章 电影数据分析Web系统的总体设计 7
4.1 总体概要设计 7
4.2 网络爬虫设计 7
4.3 数据库设计 8
4.4 数据展示设计 9
第五章 电影数据分析Web系统的实现和测试 10
5.1 网络爬虫的实现 10
5.1.1 下载器(DownLoad) 10
5.1.2 解析器(Parse) 10
5.1.3 入库(Storage) 11
5.1.4 工具类(Common) 11
5. *好棒文|www.hbsrm.com +Q: &351916072&
2 网络爬虫的测试 11
5.2.1 下载器测试 11
5.2.2 解析器测试 12
5.2.3 入库测试 13
5.2.4 工具类测试 13
5.3 数据采集测试 14
5.4 Web前台展示测试 15
结束语 18
致 谢 19
参考文献 20
第一章 绪 论
1.1 网络爬虫的发展
网络爬虫是用于一个自动获取网页信息的程序,它按照预先设定的要求穿梭网络[1]。并且同时还会自动采集所需要的信息,对结果进行分类和整理,然后将总结后的结果提交给用户,以便用户能够方便快捷的查找有用的信息[2]。
网络爬虫于一九九三年由麻省理工学院提出,并被称为“万维网漫步者”[3]。直到一九九四年七月,这段程序才被接入到索引程序中,并且形成了历史上的第一个搜索引擎Lycos[4]。随着技术的发展,大规模搜索引擎的出现使得网络爬虫的代码以及结构也变得越来越复杂。网络爬虫也在慢慢向多策略、负载均衡及大规模增量抓取等方向发展。发展到现在,网络爬虫大致成型。
1.2 豆瓣电影的意义
豆瓣电影目前已经成为电影评价电影水准的一个标杆。豆瓣电影评分体系的准则是“尽一切可能还原观影大众对一部电影的平均评价”。而豆瓣电影之所以能够作为国内观影风向标坚持到现在,是基于豆瓣网的用户社区和非一般的评分体系。
豆瓣电影与一般电影评分体系的区别在于它是以观影者的主观想法为评定标准。每个人对于同一事件或者同一物体往往都会持有不同的看法。所以不同的观影者对于同一部电影的评价也往往持有不同的态度。而对于豆瓣电影,社区用户对于电影的评分和评价则是网站的主要关注点。这不仅仅体现了观影者主观对于电影的鉴赏力和理解力,更是在一定程度上成为了评分网站的营销手段影响着其它观影者对于影片水准的判断。与传统的论坛不同,豆瓣网很少干预用户的言行自由。所以用户可以相对自由的发表对于电影的主观看法,并不需要顾虑其他内容。这种大众化的评分体系相较于职业影评人也更易被普通观影者所接受与承认。综上所述,豆瓣电影相较于一般的电影评分网站更具有普遍意义。
1.3 研究的背景和意义
随着社会的发展和观点的改变,人们在日常生活中更注重于提高生活质量。看电影也逐渐成为了人们日常消遣的大部分选择。人们在选择观看哪一部电影时,也会先在网络中查看已经观看过电影的观众对电影的评价。所以豆瓣电影的出现极大的方便了人们对于电影的选择,可以更加准确和快速的选择观看的电影。观影者可以在豆瓣电影平台上看到电影的评分以及电影的基本信息。
而本系统正是通过网络爬虫技术收集电影的评分以及基本信息,以便用户可以快速查询所需电影信息。同时大数据是当前技术发展的趋势,而网络爬虫作为大数据的重要组成部分,更是需要大家去学习与研究。
第二章 开发技术简介
2.1 Tomcat简介
Tomcat服务器是一个免费的开放源代码的轻量级的Web应用服务器。因为Tomcat的先进技术以及高稳定性,因而得到了大多数软件开发商的一致认可,又由于Tomcat服务器是免费的,所以更受到了广大Java开发者的偏爱。而且Tomcat服务器它不仅仅只是一个Servlet和JSP的容器,它同样可以处理静态页面、HTML页面。所以,本系统的Web应用部分就部署在了Tomcat服务器上。
2.2 MySQL简介
MySQL是一个关系型数据库管理系统[5]。它是由瑞典的MySQL AB公司开发出来的,之后该公司被Oracle公司收购,MySQL数据库也就自然而然地变成了Oracle旗下的一个产品[6]。MySQL是当下最流行的关系型数据库管理系统之一。MySQL可以被称为在Web应用方面最好的应用软件,它的创新之处在于将数据保存在不同的表中大大提高了灵活性。
MySQL所使用的数据库语言都是常用的SQL语句,与其他数据库并没有太大的区别。MySQL数据库还具有体积小、速度快、总体拥有成本低等特点,尤其是具备开放的源码这一特点。因为本系统需要在页面展示数据,所以有Web应用部分。又因为MySQL可以说是Web应用方面现下最好的应用软件,因此采用了MySQL数据库。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/94.html