爬虫技术的高校热点新闻推荐app设计与开发(源码)
在科技日新月异的今天,网络信息已经成为我们了解社会活动的一种必不可少的途径。网站技术的发展为高校学生提供了一种更为便捷获取信息的途径,但是高校网站众多,信息大量过载,导致信息查找和筛选困难,经常消耗过多的时间和精力在纷繁复杂的网站查询自己想要的信息。如何从众多高校校园网新闻平台中提取其中热点新闻并及时有效推荐给高校师生和社会人士,为他们提供相关决策依据已经当今社会一个重要的话题。本系统基于爬虫技术,设计开发一个高校热点新闻推荐APP,该系统可从互联网中收集各所高校校内新闻数据,对热门新闻中的信息进行爬取,为高校师生提供个性化的信息查询和推荐服务。关键词 新闻推荐,网络爬虫,APP开发,可视化,数据抽取
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外发展状况 1
2 开发技术介绍 3
2.1 网络爬虫技术 3
2.1.1 网络爬虫的定义 3
2.1.2 Scrapy框架 3
2.2 Djangorestframework 4
2.3 服务器的部署 4
2.4 Android环境的搭建 4
2.4.1 软件下载准备 4
2.4.2 Android SDK安装 4
2.4.3 创建 AVD 4
2.5 Java技术 5
2.6 My SQL Workbeach 5
3 需求分析 6
3.1 可行性分析 6
3.1.1 技术可行性 6
3.1.2 操作可行性 6
3.2 系统对象分析 6
3.3 课题对象分析 7
3.3.1 管理员对象分析 7
3.3.2 用户对象分析 7
3.3.3 新闻网站用例分析 8
4 总体设计 10
4.1 系统架构图 10
4.2 数据库结构设计 11
4.3 爬虫功能模块设计 11
4.3.1 数据获取功能模块 12
4.3.2 数据可视化功能模 *好棒文|www.hbsrm.com +Q: ^351916072*
块 15
5 新闻数据获取模块开发 16
5.1 高校新闻网站分析 16
5.2 新闻数据抽取模块编写 16
5.3 新闻数据清洗模块编写 18
5.4 新闻数据存储模块编写 19
5.5 爬虫数据获取流程 20
5.5.1 爬虫程序初始界面 20
5.5.2 建立连接操作 21
5.5.3 爬虫运行操作 22
6 新闻数据可视化模块开发 25
6.1 数据可视化模块 25
6.2.1 首页 25
6.2.2 查看各类新闻 25
6.2.3 按时间查看新闻 26
6.2.4 按浏览量查看新闻 27
6.2.5 Djangorestframework后端API视图 27
6.3 软件测试与发布 28
6.3.1 软件测试用例 28
6.3.2 测试结果 29
结 论 30
致 谢 32
参 考 文 献 33
1 引言
1.1 课题背景
当今社会网站众多,如不能针对有效信息进行具体分类,往往查询不到自己想要的信息,从而导致工作效率。高校热点新闻推荐的研究是通过对校园新闻网的热点新闻进行爬取、分析,对学生以及社会人士浏览量较高或者更新时间较快的新闻网页进行抓取,最后提供相应的结果,为高校学生以及社会人士的查询等工作提供个性化的建议与帮助。所以,对校园网的新闻数据进行爬取,运用爬虫的算法对其进行剖析拥有重大的意义。
爬虫是一种向网络发送请求,爬取其中的数据进行分析,并提取目标数据的程序。本课题来源于高校校园新闻网站的项目建设,目的是为全校师生和社会人士供应个性化的信息查阅。
高校热点新闻推荐APP的提出具有重大意义。学生可以了解周围省市高校的热点新闻,通过把爬虫Scrapy框架等技术的结合,避免了单一繁琐的手动查询。
1.2 国内外发展状况
从国内外的发展研究成果来看来划分搜索对象,主要分为两种搜索技术:
第一种是以链接分析为基础的搜索引擎。即通过人与人之间的关系,类比出网页之间存在的关系。经过研究他们发现匹配度最高的是在传统引文方面。早在之前就已经出现了这种搜索引擎。这种较早出现的搜索引擎基于链接。
第二种则是以内容分析为基础的搜索引擎。和前一种搜索方式进行比较来说,这种搜索方式的出现大大提高率效率,在当时是一个巨大的突破与成就。他们的思维方式发生了转变,成立了一个词库,这个词库主要是针对主题的。当用户开始搜索自己想要的内容时,搜索的内容可以从两个方面进行检索:爬虫和词库。因为搜索的角度已经发生了改变,这项新技术开始慢慢走进人们的视野,出现在大众的视线。在二十年前,以内容分析为基础的搜索引擎Fish Search System已经成功开发。
现在爬虫技术已经发展的越来越好,越来越成熟。其中CORA就是一个比较典型的系统。CORA 是一个主题搜索引擎,它是由经A.K.McCallum等人特地为计算机学科所设计的。CORA主要针对的内容大多和计算机有关,虽然它在许多方面例如主题和地址方面还存在许多缺陷与不足,并且也没有对网页进行分析的能力,可是瑕不掩瑜,在获取内容资源方面依然不可抹杀它所作出的重大贡献。
随着时代的发展,一种新的爬虫系统IBM Focused Crawler应运而生。随着开发过程的日益成熟和完备,这个系统有了大幅提升,主要体现在准确度和相关度 [2]。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外发展状况 1
2 开发技术介绍 3
2.1 网络爬虫技术 3
2.1.1 网络爬虫的定义 3
2.1.2 Scrapy框架 3
2.2 Djangorestframework 4
2.3 服务器的部署 4
2.4 Android环境的搭建 4
2.4.1 软件下载准备 4
2.4.2 Android SDK安装 4
2.4.3 创建 AVD 4
2.5 Java技术 5
2.6 My SQL Workbeach 5
3 需求分析 6
3.1 可行性分析 6
3.1.1 技术可行性 6
3.1.2 操作可行性 6
3.2 系统对象分析 6
3.3 课题对象分析 7
3.3.1 管理员对象分析 7
3.3.2 用户对象分析 7
3.3.3 新闻网站用例分析 8
4 总体设计 10
4.1 系统架构图 10
4.2 数据库结构设计 11
4.3 爬虫功能模块设计 11
4.3.1 数据获取功能模块 12
4.3.2 数据可视化功能模 *好棒文|www.hbsrm.com +Q: ^351916072*
块 15
5 新闻数据获取模块开发 16
5.1 高校新闻网站分析 16
5.2 新闻数据抽取模块编写 16
5.3 新闻数据清洗模块编写 18
5.4 新闻数据存储模块编写 19
5.5 爬虫数据获取流程 20
5.5.1 爬虫程序初始界面 20
5.5.2 建立连接操作 21
5.5.3 爬虫运行操作 22
6 新闻数据可视化模块开发 25
6.1 数据可视化模块 25
6.2.1 首页 25
6.2.2 查看各类新闻 25
6.2.3 按时间查看新闻 26
6.2.4 按浏览量查看新闻 27
6.2.5 Djangorestframework后端API视图 27
6.3 软件测试与发布 28
6.3.1 软件测试用例 28
6.3.2 测试结果 29
结 论 30
致 谢 32
参 考 文 献 33
1 引言
1.1 课题背景
当今社会网站众多,如不能针对有效信息进行具体分类,往往查询不到自己想要的信息,从而导致工作效率。高校热点新闻推荐的研究是通过对校园新闻网的热点新闻进行爬取、分析,对学生以及社会人士浏览量较高或者更新时间较快的新闻网页进行抓取,最后提供相应的结果,为高校学生以及社会人士的查询等工作提供个性化的建议与帮助。所以,对校园网的新闻数据进行爬取,运用爬虫的算法对其进行剖析拥有重大的意义。
爬虫是一种向网络发送请求,爬取其中的数据进行分析,并提取目标数据的程序。本课题来源于高校校园新闻网站的项目建设,目的是为全校师生和社会人士供应个性化的信息查阅。
高校热点新闻推荐APP的提出具有重大意义。学生可以了解周围省市高校的热点新闻,通过把爬虫Scrapy框架等技术的结合,避免了单一繁琐的手动查询。
1.2 国内外发展状况
从国内外的发展研究成果来看来划分搜索对象,主要分为两种搜索技术:
第一种是以链接分析为基础的搜索引擎。即通过人与人之间的关系,类比出网页之间存在的关系。经过研究他们发现匹配度最高的是在传统引文方面。早在之前就已经出现了这种搜索引擎。这种较早出现的搜索引擎基于链接。
第二种则是以内容分析为基础的搜索引擎。和前一种搜索方式进行比较来说,这种搜索方式的出现大大提高率效率,在当时是一个巨大的突破与成就。他们的思维方式发生了转变,成立了一个词库,这个词库主要是针对主题的。当用户开始搜索自己想要的内容时,搜索的内容可以从两个方面进行检索:爬虫和词库。因为搜索的角度已经发生了改变,这项新技术开始慢慢走进人们的视野,出现在大众的视线。在二十年前,以内容分析为基础的搜索引擎Fish Search System已经成功开发。
现在爬虫技术已经发展的越来越好,越来越成熟。其中CORA就是一个比较典型的系统。CORA 是一个主题搜索引擎,它是由经A.K.McCallum等人特地为计算机学科所设计的。CORA主要针对的内容大多和计算机有关,虽然它在许多方面例如主题和地址方面还存在许多缺陷与不足,并且也没有对网页进行分析的能力,可是瑕不掩瑜,在获取内容资源方面依然不可抹杀它所作出的重大贡献。
随着时代的发展,一种新的爬虫系统IBM Focused Crawler应运而生。随着开发过程的日益成熟和完备,这个系统有了大幅提升,主要体现在准确度和相关度 [2]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1172.html