网络爬虫技术在品牌维权系统中的应用(附件)【字数:14165】

摘 要摘 要随着时代的迁移,互联网技术迅速发展,移动智能产品得到大量的普及,网民数量也大幅度增长,这些因素使得近年来电子商务快速发展。在电子商务带来便利的同时,因为消费者无法在线立即看到实物辨别真伪,这就使得假冒伪劣产品泛滥不止。因此构建品牌维权系统,帮助用户维权商家打假变得至关重要。本文提出的品牌维权系统利用商品信息,比如图片、价格、买家评论等,帮助用户进行维权打假。其主要的功能是信息采集,这就要需要用到网络爬虫技术。一个好的网络爬虫算法使品牌维权系统不仅能精确定位商品信息而且有着较高的信息抓取效率。因此本文的主要目的是研究网络爬虫算法并且将其运用到品牌维权系统中。本文的主要工作如下研究和分析通用网络爬虫算法、主题网络爬虫算法,并对两种算法进行比较。针对淘宝网介绍了三种算法,分别为基于htmlunit的爬虫算法、基于httpclient的爬虫算法以及基于淘宝API的爬虫算法,并对三者进行比较。根据研究的算法将其运用到品牌维权系统中,并实现系统相应的模块。品牌维权系统的出现在一定程度上维护了各商家品牌的权益,也在一定程度上帮助了消费者做出正确的购买决策,维护自身的权益。关键词品牌维权;数据采集;网络爬虫;淘宝
目 录
第一章 绪论 1
1.1课题研究的背景及意义 1
1.1.1研究背景 1
1.1.2研究意义 1
1.2 国内外研究现状 2
1.2.1 通用网络爬虫研究现状 2
1.2.2 主题网络爬虫研究现状 3
1.3 本文研究内容与组织结构 4
第二章 网络爬虫算法的相关理论 5
2.1 通用爬虫算法 5
2.1.1 通用网络爬虫体系结构 5
2.1.2 通用网络爬虫的搜索策略 6
2.2 主题爬虫算法 7
2.2.1主题网络爬虫体系结构 7
2.2.2主题网络爬虫的搜索策略 9
2.3 通用爬虫算法与主题爬虫算法的比较 11
2.4 相关开发环境介绍 12
2.5 本章小结 13
第三章 淘宝平台主题爬虫的算法设计与实验分析 14
3.1 URL和正则表达式 1 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
4
3.1.1 URL简介 14
3.1.2 正则表达式 14
3.2 HTML网页结构分析与处理 15
3.2.1 HTML网页结构 15
3.2.2 HTML网页内容的提取 16
3.3基于htmlunit的爬虫算法设计 16
3.3.1 算法设计 17
3.4 基于HttpClient的爬虫算法设计 18
3.5 基于淘宝开放API的爬虫算法设计 20
3.5.1 淘宝商品评论获取API分析 20
3.5.2算法设计 21
3.6 实验结果分析 21
3.7 本章小结 23
第四章 品牌维权系统总体设计 24
4.1系统需求分析与可行性分析 24
4.1.1 需求分析 24
4.1.2 可行性分析 24
4.2 系统总体设计 25
4.2.1 系统总体功能结构框架图 25
4.2.2 系统架构设计 26
4.2.3 数据库设计 26
4.3本章小节 28
第五章 品牌维权系统模块设计与实现 29
5.1 商品数据采集模块设计 29
5.1.1 网络爬虫模块 29
5.1.2 网页解析模块设计 33
5.2 用户模块设计 35
5.3 管理员模块设计 36
5.4 web前端展示模块设计 36
5.4.1 登录及搜索界面 36
5.4.2 数据展示界面 38
5.5系统测试 39
第六章 总结与展望 40
6.1 总结 40
6.2 展望 40
致 谢 41
参 考 文 献 42
第一章 绪论
1.1课题研究的背景及意义
1.1.1研究背景
随着时代的迁移,互联网技术迅速发展,移动智能产品得到大量的普及,网民数量也大幅度增长,这些因素使得近年来电子商务快速崛起。截至2015年12月,中国网民规模达到6.88亿,互联网普及率达到50.3%,中国居民上网人数已过半[1]。因为网上购物与传统的线下购物有着很大的区别,消费者无法看到真实的产品辨别真伪,这就导致了假冒伪劣产品泛滥不止。电子商务假冒伪劣商品泛滥的原因主要有以下几点:
假冒伪劣产品的制造成本低、利润高。
消费者不擅于维护自己的合法权益,即使知道自己买到了假冒伪劣产品也很少通过法律途径来维权,通常选择协商退货或者不了了之。
在我国针对电子商务的法律法规仍然不够全面,对售假、造价的惩罚力度不够。
1.1.2研究意义
在电子商务假冒伪劣商品泛滥的背景下,构建品牌维权系统,帮助品牌商和消费者维权打假有着重大的意义。
品牌维权系统的核心功能商品信息采集。用户可以通过查看实体图,价格,评论等等信息来判定是否为假冒伪劣产品。为提高系统信息采集的能力,需要深入研究网络爬虫技术。好的网络爬虫算法不仅能使品牌维权系统精确的获取商品信息而且也能使系统有着较高的信息采集效率。本文将深入研究网络爬虫算法并将其应用到品牌维权系统中。
1.2 国内外研究现状
1.2.1 通用网络爬虫研究现状
通用网络爬虫从种子URL出发,将抓取到的URL存入待抓取队列,然后重复执行相同的步骤,直到一定的条件才停止抓取。通用网络爬虫的抓取范围广数量巨大,现在主要为大型的Web网络服务商提供数据采集服务,具有极大的商业价值。典型的通用网络爬虫主要有Google Crawler,Internet Archive Crawler以及Mercator[2]。
谷歌搜索引擎是一个分布式的系统它使用多台机器来进行爬取操作。Google Crawler是由运行在不同进程内的五个功能模块组成。一个统一资源定位符(URL)服务器进程将从文件内读取统一资源定位符并转发给多个爬虫进程。每个爬虫进程以单线程的形式运行在不同的机器上,并且使用异步IO从多达300台web服务器平行地获取数据。这些爬虫传输下载的页面到单独的存储服务器进程,这个服务进程会压缩网页并且把它们存储到硬盘上。然后通过一个检索进程从硬盘上读取这些下载的页面,同时从HTML页面提取链接并保存到不同的硬盘文件里。一个URL解析进程会读取链接文件并把包含在内的URL相对地址转变为绝对地址,然后把这些地址保存到可以被URL服务器读取的硬盘文件里。通常情况下,爬虫程序需要三到四台机器,所以整个系统要求四到八台机器。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/385.html

好棒文