网络用户评论信息采集系统的设计与实现
摘要:网购评论作为我们购物时的重要参考信息,对我们正确有效地进行商品选择,有着非常重要的意义,论文介绍了信息采集技术的发展概况,并在对开源爬虫WebMagic进行深入学习的基础上,设计并实现了一个针对网购评论的信息采集系统,其目的是为具有特殊信息分析需求的用户提供一个便捷、高效的信息获取工具。系统采用SpringMVC框架进行开发,以web应用的形式向用户提供评论信息的收集、储存和展示功能,在系统开发过程中对WebSocket通信技术进行了实践,最后以京东商城为例测试了系统的信息采集效果。
目录
摘要1
关键词1
Abstract1
Key words 1
一、引言2
(一)课题研究背景2
二、相关技术介绍3
(一)网络爬虫介绍3
(二)SpringMVC框架介绍3
(三)websocket介绍3
三、系统需求分析4
(一)系统需求分析4
(二)系统功能分析6
四、系统设计与实现7
(一)总体设计7
(二)详细设计8
五、系统测试26
(一)测试准备26
(二)测试过程26
(三)测试结果26
致谢27
参考文献27
网络用户评论信息采集系统的设计与实现
引言
引言
网络资源与其他信息资源相比具有内容更多样、分布更广泛、更新更及时、获取更便捷的优势,通过借助现有的搜索引擎,普通用户在很大程度上满足了对网络资源的获取需求,但是对于一些需要大量特定信息进行分析研究的用户而言,在普通搜索引擎不足以完成这项任务的情况下,网络信息采集技术在这方面充分发挥着自身的优势和作用。
一、课题研究背景
(一)网页信息采集研究现状
网络信息采集系统是以网页信息挖掘引擎为基础构建而成[1],它可以在最短的时间内,帮助用户把特定需求内的信息从网页上下载下来,并在进行分类和统一格式后,以不同形式提供给用户使用。网页信息提取一般过程为[2]:网页预处理,网页去噪,网页抽取,其中预处理工
*好棒文|www.hbsrm.com +Q: *351916072*
作包括:网页内容去噪、制定抽取规则、引入启发规则、编写领域本体、通过训练提取模板等,目的是得到待提取信息的语法结构模式,信息定位工作根据这个语法结构模式在网页中找到待提取信息的位置,最后把找到的信息添加格式形成包含语义的数据进行储存。
目前普遍使用的网页信息提取技术可分为以下4种类型[3]:基于自然语言处理方式的信息提取、包装器归纳方式的信息提取、基于ontology方式的信息提取、基于HTML结构的信息提取。评价一种提取方法效果的指标主要是通过大样本测试计算它的召回率和准确率,为了更好地提升网页提取的效果,适应网络发展带来的变化(如动态网页、语义web、HTML5标准等),有关网页信息提取的研究已经从基于单一方法的信息提取向多种方法融合、引入其他学科方法(如视觉特征、自然语言处理等)的道路转变。
(二)网购评论信息采集的意义
网络购物凭借自身方便实惠、种类丰富的特点,已经成为人们日常生活中重要的消费方式,但是随着网购市场的高速增长,不少商家为了达到勾起消费者购买欲望的目的,故意将实物图片进行技术处理,来增加商品的卖点,而实际上消费者购买到的实物与商家展示的效果相去甚远。另外,由于网络广告监管的空缺,一些虚假广告乘虚而入,更让消费者难以辨别商品质量的好坏。网购评论信息作为我们获取商品质量信息的重要途径,在我们的购物过程中起着相当重要的参考作用,本系统就立足于这样的需求上,计划实现一个可以对不同网站不同商品评论进行采集的信息系统。
(三)论文结构
论文主要在研究WebMagic开源爬虫的基础上,设计并实现了一个用于采集网购商品评论的信息系统。全文主要分为五个部分,第一部分是绪论部分,主要介绍了课题研究的背景及需要解决的问题、主要工作和论文的结构。第二部分介绍了系统中运用到的其他相关技术,包括网络爬虫的基础知识、websocket通信协议及SpringMVC开发框架。的三部分是系统的需求分析。第四部分是系统的设计和实现部分,主要包括系统整体结构、信息采集核心功能的设计开发、后端服务整合部分和前端界面设计部分。第五部分是系统测试的相关内容。
二、相关技术介绍
(一)网络爬虫介绍
随着现代互联网技术的不断普及和应用,万维网上集中的信息资源数量呈爆发式地增长,如何有效地提取并利用这些信息成为一个巨大的挑战和难题。Lawrence和Giles的研究表明没有哪个搜索引擎能够索引超出16%的Internet 上Web页面,即使能够提取全部页面,也没有足够的空间来存储[4]。为了解决上述问题,用于抓取网页信息的爬虫应运而生。
网络爬虫,又称为网络蜘蛛(Web Spider)或 Web 信息采集器,是一个自动下载网页的计算机程序或自动化脚本[5],是搜索引擎的重要组成部分,爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫[6]。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
网络爬虫的一般抓取流程是,首先从互联网中选取一些涉及面广、信息量丰富的网页,以这些网页的链接作为起始链接放入待抓取队列中,网络爬虫从这一队列依次读取未处理链接,并通过DNS解析把链接地址转换为网站服务器对应的IP地址传给下载器[7]。下载器根据传来的IP地址模拟浏览器发出请求,若请求成功将响应结果在本地存储起来并将请求链接放入已抓取队列中,若请求失败将请求链接重新加在未处理队列尾部。对响应信息的处理主要包括两个方面,其一是对页面指定内容的提取,其二是将页面中包含的所有链接提取出来,并在已抓取队列中检查,如果发现链接未处理过,则将链接放入待抓取队列末尾,在后续的抓取过程中将会对该链接就行处理,相同的过程循环多次直到待抓取队列为空,即完成了一轮完整的抓取过程。
(二)SpringMVC框架介绍
SpringMVC是Spring框架中最重要的组成模块之一,与传统的模型视图控制器(MVC)设计模式一样,SpringMVC也起着消除业务逻辑与用户界面间耦合的重要作用。
当用户请求发送给SpringMVC应用时,控制器首先接收这个请求,然后根据请求与处理方法的映射关系分发给相应的处理器中的具体方法进行处理,成功处理后返回一个包含模型数据和逻辑视图名的类ModelAndView,然后控制器根据返回的逻辑视图名,选择相应的视图并把模型数据传入进行视图渲染,最后控制器将相应的结果返回给用户。
使用SpringMVC框架进行开发的优势在于:1)分离了控制器、模型对象、分派器以及处理程序对象的角色,这种分离让它们更容易进行定制[8];2)SpringMVC是方法级别的拦截,一个方法对应一个请求上下文,而方法同时又跟一个请求链接地址对应,所以从架构本身上是支持Restful风格的;3)框架中包含多种视图技术,非常容易与其他视图技术集成,如Velocity、FreeMarker等等;4)SpringMVC框架提供的大量注解不仅简化了框架配置而且使Web层的开发更加简洁高效。
目录
摘要1
关键词1
Abstract1
Key words 1
一、引言2
(一)课题研究背景2
二、相关技术介绍3
(一)网络爬虫介绍3
(二)SpringMVC框架介绍3
(三)websocket介绍3
三、系统需求分析4
(一)系统需求分析4
(二)系统功能分析6
四、系统设计与实现7
(一)总体设计7
(二)详细设计8
五、系统测试26
(一)测试准备26
(二)测试过程26
(三)测试结果26
致谢27
参考文献27
网络用户评论信息采集系统的设计与实现
引言
引言
网络资源与其他信息资源相比具有内容更多样、分布更广泛、更新更及时、获取更便捷的优势,通过借助现有的搜索引擎,普通用户在很大程度上满足了对网络资源的获取需求,但是对于一些需要大量特定信息进行分析研究的用户而言,在普通搜索引擎不足以完成这项任务的情况下,网络信息采集技术在这方面充分发挥着自身的优势和作用。
一、课题研究背景
(一)网页信息采集研究现状
网络信息采集系统是以网页信息挖掘引擎为基础构建而成[1],它可以在最短的时间内,帮助用户把特定需求内的信息从网页上下载下来,并在进行分类和统一格式后,以不同形式提供给用户使用。网页信息提取一般过程为[2]:网页预处理,网页去噪,网页抽取,其中预处理工
*好棒文|www.hbsrm.com +Q: *351916072*
作包括:网页内容去噪、制定抽取规则、引入启发规则、编写领域本体、通过训练提取模板等,目的是得到待提取信息的语法结构模式,信息定位工作根据这个语法结构模式在网页中找到待提取信息的位置,最后把找到的信息添加格式形成包含语义的数据进行储存。
目前普遍使用的网页信息提取技术可分为以下4种类型[3]:基于自然语言处理方式的信息提取、包装器归纳方式的信息提取、基于ontology方式的信息提取、基于HTML结构的信息提取。评价一种提取方法效果的指标主要是通过大样本测试计算它的召回率和准确率,为了更好地提升网页提取的效果,适应网络发展带来的变化(如动态网页、语义web、HTML5标准等),有关网页信息提取的研究已经从基于单一方法的信息提取向多种方法融合、引入其他学科方法(如视觉特征、自然语言处理等)的道路转变。
(二)网购评论信息采集的意义
网络购物凭借自身方便实惠、种类丰富的特点,已经成为人们日常生活中重要的消费方式,但是随着网购市场的高速增长,不少商家为了达到勾起消费者购买欲望的目的,故意将实物图片进行技术处理,来增加商品的卖点,而实际上消费者购买到的实物与商家展示的效果相去甚远。另外,由于网络广告监管的空缺,一些虚假广告乘虚而入,更让消费者难以辨别商品质量的好坏。网购评论信息作为我们获取商品质量信息的重要途径,在我们的购物过程中起着相当重要的参考作用,本系统就立足于这样的需求上,计划实现一个可以对不同网站不同商品评论进行采集的信息系统。
(三)论文结构
论文主要在研究WebMagic开源爬虫的基础上,设计并实现了一个用于采集网购商品评论的信息系统。全文主要分为五个部分,第一部分是绪论部分,主要介绍了课题研究的背景及需要解决的问题、主要工作和论文的结构。第二部分介绍了系统中运用到的其他相关技术,包括网络爬虫的基础知识、websocket通信协议及SpringMVC开发框架。的三部分是系统的需求分析。第四部分是系统的设计和实现部分,主要包括系统整体结构、信息采集核心功能的设计开发、后端服务整合部分和前端界面设计部分。第五部分是系统测试的相关内容。
二、相关技术介绍
(一)网络爬虫介绍
随着现代互联网技术的不断普及和应用,万维网上集中的信息资源数量呈爆发式地增长,如何有效地提取并利用这些信息成为一个巨大的挑战和难题。Lawrence和Giles的研究表明没有哪个搜索引擎能够索引超出16%的Internet 上Web页面,即使能够提取全部页面,也没有足够的空间来存储[4]。为了解决上述问题,用于抓取网页信息的爬虫应运而生。
网络爬虫,又称为网络蜘蛛(Web Spider)或 Web 信息采集器,是一个自动下载网页的计算机程序或自动化脚本[5],是搜索引擎的重要组成部分,爬虫的主要目的是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫[6]。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
网络爬虫的一般抓取流程是,首先从互联网中选取一些涉及面广、信息量丰富的网页,以这些网页的链接作为起始链接放入待抓取队列中,网络爬虫从这一队列依次读取未处理链接,并通过DNS解析把链接地址转换为网站服务器对应的IP地址传给下载器[7]。下载器根据传来的IP地址模拟浏览器发出请求,若请求成功将响应结果在本地存储起来并将请求链接放入已抓取队列中,若请求失败将请求链接重新加在未处理队列尾部。对响应信息的处理主要包括两个方面,其一是对页面指定内容的提取,其二是将页面中包含的所有链接提取出来,并在已抓取队列中检查,如果发现链接未处理过,则将链接放入待抓取队列末尾,在后续的抓取过程中将会对该链接就行处理,相同的过程循环多次直到待抓取队列为空,即完成了一轮完整的抓取过程。
(二)SpringMVC框架介绍
SpringMVC是Spring框架中最重要的组成模块之一,与传统的模型视图控制器(MVC)设计模式一样,SpringMVC也起着消除业务逻辑与用户界面间耦合的重要作用。
当用户请求发送给SpringMVC应用时,控制器首先接收这个请求,然后根据请求与处理方法的映射关系分发给相应的处理器中的具体方法进行处理,成功处理后返回一个包含模型数据和逻辑视图名的类ModelAndView,然后控制器根据返回的逻辑视图名,选择相应的视图并把模型数据传入进行视图渲染,最后控制器将相应的结果返回给用户。
使用SpringMVC框架进行开发的优势在于:1)分离了控制器、模型对象、分派器以及处理程序对象的角色,这种分离让它们更容易进行定制[8];2)SpringMVC是方法级别的拦截,一个方法对应一个请求上下文,而方法同时又跟一个请求链接地址对应,所以从架构本身上是支持Restful风格的;3)框架中包含多种视图技术,非常容易与其他视图技术集成,如Velocity、FreeMarker等等;4)SpringMVC框架提供的大量注解不仅简化了框架配置而且使Web层的开发更加简洁高效。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/898.html