网上农产品信息获取系统
3本课题立足于人类对农产品信息的需求,推出网上农产品信息获取系统的研究。希望此系统能够给人们带来方便,能够快捷、精准、有效的从网上获取农产品信息,便于在其购买前提供参考。对于该系统来说如何获取庞大的数据是至关重要的问题,本文提出针对目标数据来源的解决方案——网络爬虫的设计与实现。本文围绕如何设计和实现网络爬虫功能进行研究,主要就1、确定种子链接为网络爬虫提供一个爬行入口;2、网页抓取的方法将符合要求的网页链接存储到数据库;3、分析网页内容提取网页中与农产品有关的信息;4、结构化与存储数据将符合的数据逐条提取出来并存储到数据库中;5、查询农产品信息等问题作了深入讨论。该系统由JAVA语言编程实现,针对一亩田网站进行测试,抓取农产品信息数据齐全,获得使用者的极大肯定!
目 录
Abstract 3
Key words 3
1 绪论 3
1.1 选题背景 3
1.2 研究目的及意义 4
1.3 相关技术研究 5
1.3.1 网络爬虫技术的研究路线 5
1.3.2 网络爬虫的国内外研究现状 6
2 搜索引擎概述 7
2.1 搜索引擎的发展历史 7
2.2 搜索引擎的分类 8
2.3 搜索引擎的工作原理 9
2.4 本章小结 10
3 网络爬虫概述 10
3.1 网络爬虫概述 10
3.2 网络爬虫程序的结构 10
3.3 网络爬虫分类 11
3.4 网络爬虫的爬行策略 12
3.5 开源网络爬虫简介 14
3.6 本章小结 15
4 网页文件抓取技术研究 15
4.1 URI,URL的深入理解 15
4.2 HTTP协议 16
4.3 URL去重 18
4.4 URL过滤 19
4.5 HttpClient简介 19
4.6 本章小结 19
5 网页内容的分析方法 19
5.1 正则表达式分析法 19
*好棒文|www.hbsrm.com +Q: ¥351916072¥
/> 5.2 HTMLParser 分析法 20
5.3 本章小结 20
6 网上农产品信息获取系统的设计与实现 20
6.1 农产品信息网络爬虫体系结构 20
6.2 定制种子链接 21
6.3 网页链接抓取 22
6.3.1 一级目标网址抓取 22
6.3.2 二级目标网址抓取 23
6.4 网页内容抓取 26
6.4.1 网页内容解析 26
6.4.2 网页数据抓取 28
6.5 农产品信息存储 28
6.5.1 创建农产品数据库结构 29
6.5.2 建数据库 29
6.5.3 新增农产品信息方法 29
6.6 农产品信息查询 31
6.6.1 分类查询 31
6.6.2 全部查询 32
6.7 系统其他功能设计与实现 32
6.7.1 登录注册功能 32
6.7.2 网页浏览功能 33
6.7.3 天气预报功能 35
6.7.4 农产品图片陈列功能 36
7 系统测试 36
7.1 系统的开发环境 36
7.2 安装 36
7.3 系统测试 36
7.3.1 注册模块 36
7.3.2 登录模块 37
7.3.3 一级目标网址采集模块 38
7.3.4 二级目标网址采集模块 38
7.3.5 目标数据抓取模块 39
7.3.6 分类查询模块 39
7.3.7 全部查询模块 40
7.3.8 网页浏览模块 40
7.3.9 天气预报模块 41
7.3.10 农产品图片陈列模块 41
7.4 本章小结 41
8 总结与展望 42
8.1 总结 42
8.2 展望 42
致谢 42
参考文献 42
网上农产品信息获取系统
计算机科学与技术 何飞鹏
指导教师 叶锡君
The system access to the online agricultural information
Student majoring in He Feipeng
Tutor Ye Xijun
Abstract:This paper is based on human needs for agricultural information, and makes research on the system of crawling online agricultural information. Hoping this system can bring convenience to people, help them to get the agricultural information from the Internet quickly, accurately and effectively, provides a reference for them before shopping. It is a critical issue for this system that how to get the large data, this paper presents a solution for the target data acquisition design and implementation of Web Crawler. This paper conducts a research on how to design and implement web crawler function, mainly on: 1, determining seeding links: providing a crawl entrance for web crawler; 2, web crawling methods: storing the web links in the database, which meets the requirements; 3, make analysis of web contents: extracting agricultural related information pages; 4, structured data storage: extracting and storing the data which meet the requirements data one by one in the database; 5, check agricultural information and other issues were discussed in depth. This system is realized by JAVA programming language, tests against the “www.ymt360.com” website, the gained agricultural information and data is complete, the users speak highly of this system.
目 录
Abstract 3
Key words 3
1 绪论 3
1.1 选题背景 3
1.2 研究目的及意义 4
1.3 相关技术研究 5
1.3.1 网络爬虫技术的研究路线 5
1.3.2 网络爬虫的国内外研究现状 6
2 搜索引擎概述 7
2.1 搜索引擎的发展历史 7
2.2 搜索引擎的分类 8
2.3 搜索引擎的工作原理 9
2.4 本章小结 10
3 网络爬虫概述 10
3.1 网络爬虫概述 10
3.2 网络爬虫程序的结构 10
3.3 网络爬虫分类 11
3.4 网络爬虫的爬行策略 12
3.5 开源网络爬虫简介 14
3.6 本章小结 15
4 网页文件抓取技术研究 15
4.1 URI,URL的深入理解 15
4.2 HTTP协议 16
4.3 URL去重 18
4.4 URL过滤 19
4.5 HttpClient简介 19
4.6 本章小结 19
5 网页内容的分析方法 19
5.1 正则表达式分析法 19
*好棒文|www.hbsrm.com +Q: ¥351916072¥
/> 5.2 HTMLParser 分析法 20
5.3 本章小结 20
6 网上农产品信息获取系统的设计与实现 20
6.1 农产品信息网络爬虫体系结构 20
6.2 定制种子链接 21
6.3 网页链接抓取 22
6.3.1 一级目标网址抓取 22
6.3.2 二级目标网址抓取 23
6.4 网页内容抓取 26
6.4.1 网页内容解析 26
6.4.2 网页数据抓取 28
6.5 农产品信息存储 28
6.5.1 创建农产品数据库结构 29
6.5.2 建数据库 29
6.5.3 新增农产品信息方法 29
6.6 农产品信息查询 31
6.6.1 分类查询 31
6.6.2 全部查询 32
6.7 系统其他功能设计与实现 32
6.7.1 登录注册功能 32
6.7.2 网页浏览功能 33
6.7.3 天气预报功能 35
6.7.4 农产品图片陈列功能 36
7 系统测试 36
7.1 系统的开发环境 36
7.2 安装 36
7.3 系统测试 36
7.3.1 注册模块 36
7.3.2 登录模块 37
7.3.3 一级目标网址采集模块 38
7.3.4 二级目标网址采集模块 38
7.3.5 目标数据抓取模块 39
7.3.6 分类查询模块 39
7.3.7 全部查询模块 40
7.3.8 网页浏览模块 40
7.3.9 天气预报模块 41
7.3.10 农产品图片陈列模块 41
7.4 本章小结 41
8 总结与展望 42
8.1 总结 42
8.2 展望 42
致谢 42
参考文献 42
网上农产品信息获取系统
计算机科学与技术 何飞鹏
指导教师 叶锡君
The system access to the online agricultural information
Student majoring in He Feipeng
Tutor Ye Xijun
Abstract:This paper is based on human needs for agricultural information, and makes research on the system of crawling online agricultural information. Hoping this system can bring convenience to people, help them to get the agricultural information from the Internet quickly, accurately and effectively, provides a reference for them before shopping. It is a critical issue for this system that how to get the large data, this paper presents a solution for the target data acquisition design and implementation of Web Crawler. This paper conducts a research on how to design and implement web crawler function, mainly on: 1, determining seeding links: providing a crawl entrance for web crawler; 2, web crawling methods: storing the web links in the database, which meets the requirements; 3, make analysis of web contents: extracting agricultural related information pages; 4, structured data storage: extracting and storing the data which meet the requirements data one by one in the database; 5, check agricultural information and other issues were discussed in depth. This system is realized by JAVA programming language, tests against the “www.ymt360.com” website, the gained agricultural information and data is complete, the users speak highly of this system.
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1846.html