hadoop平台的网站日志分析数据去重研究
摘 要网站日志涵盖了很多网页用户交互信息,通过对网站日志内的数据进行分析处理可以对网站进行优化。而数据去重又是网站日志分析的一项重要步骤。然而现在网站日志数据量庞大,以往的数据处理模型已经无法应对。于是云计算的崛起逐渐替换掉原来的计算模型来对大数据的进行处理。而由于Hadoop平台以其优秀的架构、友好的开发界面在云计算中崭露头角,成为开发人员的新宠。Hadoop平台中的HDFS分布式文件系统为数据的传输、备份、读写提供了良好的环境,同时Hadoop平台中Map/Reduce并行计算编程模式可以对数据进行快速处理。所以在Hadoop平台中利用HDFS和Map/Reduce并行计算编程模式对网站日志数据进行去重,不仅在处理效率上的优势明显,而且在处理数据的可靠性上也相当突出。通过实验表明,Hadoop可以高效迅速地对数据进行去重处理。
目 录
摘要 I
ABSTRACT II
目录 III
第1章 绪论 1
1.1 课题研究背景及意义 1
1.2 Hadoop在处理数据上的优势 2
1.3 Hadoop应用 2
1.4 论文研究内容及结构....... 3
第2章 Hadoop平台概述 5
2.1 Hadoop平台简介 5
2.2 Hadoop平台的优点 5
2.3 相关技术介绍 6
2.3.1 HDFS分布式文件系统 6
2.3.2 MapReduce并行计算模型 8
第3章 深层次分析Hadoop架构 10
3.1 HDFS架构分析 10
3.1.1 HDFS的设计思想及架构 10
3.1.2 数据快(Blocks) 11
3.1.3 元数据节点(NameNode) 12
3.1.4 数据节点(DataNode) 12
3.1.5 HDFS文件读写 13
3.2 MapReduce架构分析 16
3.2.1 MapReduce执行流程 16
3.2.2 Map过程 17<
*好棒文|www.hbsrm.com +Q: *351916072*
br /> 3.2.3 Shuffle过程 18
3.2.4 Reduce过程 19
第4章 网络日志数据去重的设计与实现 21
4.1 网络日志的概述及去重比较 21
4.2 网络日志数据去重的原理 21
4.3 Hadoop平台的搭建 22
4.4 对网络日志进行去重 25
4.5 去重结果分析 29
第5章 总结与展望 31
参考文献 33
致谢 34
附录 35
第1章绪论
1.1课题研究背景及意义
在互联网高速发展、移动互联网迅猛普及的今天,网络服务已经渗透到了生活的各个角落。而根据统计结果显示,目前Internet上站点数多达数亿,并且日渐增。人们每天都通过手机、电脑等终端设备对网站进行访问,而这些访问导致了大量网络日志数据的产生。随之而来的问题是海量网络日志数据的处理问题,然而原有的计算模式已经无法应对大数据的处理。加为了解决这一问题,云计算技术顺应时代潮流、应运而生。云计算主要源于以下三个方面:并行处理、分布式处理以及网格计算,它是商业化的计算机科学概念。它是一种按需求收费的模式。其基本原理是将计算分布在大量的非本地计算机或远程服务器的分布式计算机上,用户根据自己的需求,请求访问资源池获得相对应的资源。
在开源云计算系统中,Hadoop具有无与伦比的优势,很多公司和组织都选择使用Hadoop开源项目作为其解决方案。作为开源平台,人们可以根据自己的实际需求改进Hadoop,使其满足自己的要求。Hadoop作为一个出众的分布式系统基础架构,它被广泛应用于大数据处理。Hadoop可以在低性能电脑组成的集群上运行,它十分节约成本,但是它在储存和计算方面却很强的可扩展性。它的HDFS分布式文件系统具有强大的储存功能,它的MapReduce计算模型能够并行化处理数据去重。很多互联网企业如推特、Instagram看中了Hadoop的优点,于是通过修改Hadoop应用平台来获得处理他们的数据的应用。利用Hadoop对海量数据进行处理,这对于实际应用具有很大的价值。
目前每个网站包含的网页数量从几个到几百、几千个甚至更多不等,网站日志随着时间推移也变得数量庞大。网络日志包含有服务器接收到的数据处理请求信息、用户相关信息以及程序运行时出现的错误信息等。它对于网络管理人员来说就是网络优化的领航灯。管理人员通过对网络日志中的数据进行分析,根据数据来优化网站,以迎合用户。数据去重是网站日志分析的一项重要任务,利用Hadoop平台对数据进行去重,可以高效快速地获得简洁有用的数据,节省了网络管理员的数据审查时间,同样加快了网站的优化。
1.2Hadoop在处理数据上的优势
如今,信息交互极度频繁,以往的RDBMS(RelationDataBase Manage System,关系型数据库管理系统)已经无法顺应潮流,而Hadoop中MapReduce模型则是对RDBMS的完善。
总所周知,由于磁盘传输数据的速度要远大于磁盘数据的寻址速度,加上磁盘上文件的随机分布,导致了用以往的RDBMS时,当有需要读取不同位置的大量文件时,PC就会用很多时间去进行寻址。但MapReduce不同,它采用了流式访问,它可以让数据一次性写入,但是可以多次进行读取。这相对于多次读写的RDBMS要快的多。
另外,MapReduce与RDBMS在处理数据的数据结构上也有不同,传统RDBMS中数据一般是以结构化的方式储存的,所以这种数据对格式有着明确的要求:必须是定义精确的实体数据。但MapReduce却能处理包括结构化数据以及文本、影音、图等非结构化的数据。所以MapReduce处理数据要比传统RDBMS处理起来更强大。
MapReduce与RDBMS的主要区别如下表:表1.1
表1.1 MapReduce与RDBMS的比较
RDBMS
MapReduce
数据大小
GB
PB
访问
交叉式和批处理
批处理
更新
多次读写
一次写入多次读取
结构
静态模式
动态模式
集成度
高
低
伸缩性
非线性
线性
数据类型
结构化数据
结构化和非结构化数据
Hadoop利用HDFS将数据储存到集簇上的节点上,从而在PC上直接读取所需文件,省去了从网上进行数据传输的时间。Hadoop也就从另一方面提高了对数据的读取速度。
1.3Hadoop应用
随着Hadoop不断地完善与应用,越来越多的企业开始将原有的数据库处理系统替换为Hadoop平台数据库系统。它如今已经渗透到了各个行业:电子商务、电器管理、旅游管理、社交网络、搜索网站以及军事情报等。其中不乏全球知名企业:沃尔玛、eBay、Visa等。
目 录
摘要 I
ABSTRACT II
目录 III
第1章 绪论 1
1.1 课题研究背景及意义 1
1.2 Hadoop在处理数据上的优势 2
1.3 Hadoop应用 2
1.4 论文研究内容及结构....... 3
第2章 Hadoop平台概述 5
2.1 Hadoop平台简介 5
2.2 Hadoop平台的优点 5
2.3 相关技术介绍 6
2.3.1 HDFS分布式文件系统 6
2.3.2 MapReduce并行计算模型 8
第3章 深层次分析Hadoop架构 10
3.1 HDFS架构分析 10
3.1.1 HDFS的设计思想及架构 10
3.1.2 数据快(Blocks) 11
3.1.3 元数据节点(NameNode) 12
3.1.4 数据节点(DataNode) 12
3.1.5 HDFS文件读写 13
3.2 MapReduce架构分析 16
3.2.1 MapReduce执行流程 16
3.2.2 Map过程 17<
*好棒文|www.hbsrm.com +Q: *351916072*
br /> 3.2.3 Shuffle过程 18
3.2.4 Reduce过程 19
第4章 网络日志数据去重的设计与实现 21
4.1 网络日志的概述及去重比较 21
4.2 网络日志数据去重的原理 21
4.3 Hadoop平台的搭建 22
4.4 对网络日志进行去重 25
4.5 去重结果分析 29
第5章 总结与展望 31
参考文献 33
致谢 34
附录 35
第1章绪论
1.1课题研究背景及意义
在互联网高速发展、移动互联网迅猛普及的今天,网络服务已经渗透到了生活的各个角落。而根据统计结果显示,目前Internet上站点数多达数亿,并且日渐增。人们每天都通过手机、电脑等终端设备对网站进行访问,而这些访问导致了大量网络日志数据的产生。随之而来的问题是海量网络日志数据的处理问题,然而原有的计算模式已经无法应对大数据的处理。加为了解决这一问题,云计算技术顺应时代潮流、应运而生。云计算主要源于以下三个方面:并行处理、分布式处理以及网格计算,它是商业化的计算机科学概念。它是一种按需求收费的模式。其基本原理是将计算分布在大量的非本地计算机或远程服务器的分布式计算机上,用户根据自己的需求,请求访问资源池获得相对应的资源。
在开源云计算系统中,Hadoop具有无与伦比的优势,很多公司和组织都选择使用Hadoop开源项目作为其解决方案。作为开源平台,人们可以根据自己的实际需求改进Hadoop,使其满足自己的要求。Hadoop作为一个出众的分布式系统基础架构,它被广泛应用于大数据处理。Hadoop可以在低性能电脑组成的集群上运行,它十分节约成本,但是它在储存和计算方面却很强的可扩展性。它的HDFS分布式文件系统具有强大的储存功能,它的MapReduce计算模型能够并行化处理数据去重。很多互联网企业如推特、Instagram看中了Hadoop的优点,于是通过修改Hadoop应用平台来获得处理他们的数据的应用。利用Hadoop对海量数据进行处理,这对于实际应用具有很大的价值。
目前每个网站包含的网页数量从几个到几百、几千个甚至更多不等,网站日志随着时间推移也变得数量庞大。网络日志包含有服务器接收到的数据处理请求信息、用户相关信息以及程序运行时出现的错误信息等。它对于网络管理人员来说就是网络优化的领航灯。管理人员通过对网络日志中的数据进行分析,根据数据来优化网站,以迎合用户。数据去重是网站日志分析的一项重要任务,利用Hadoop平台对数据进行去重,可以高效快速地获得简洁有用的数据,节省了网络管理员的数据审查时间,同样加快了网站的优化。
1.2Hadoop在处理数据上的优势
如今,信息交互极度频繁,以往的RDBMS(RelationDataBase Manage System,关系型数据库管理系统)已经无法顺应潮流,而Hadoop中MapReduce模型则是对RDBMS的完善。
总所周知,由于磁盘传输数据的速度要远大于磁盘数据的寻址速度,加上磁盘上文件的随机分布,导致了用以往的RDBMS时,当有需要读取不同位置的大量文件时,PC就会用很多时间去进行寻址。但MapReduce不同,它采用了流式访问,它可以让数据一次性写入,但是可以多次进行读取。这相对于多次读写的RDBMS要快的多。
另外,MapReduce与RDBMS在处理数据的数据结构上也有不同,传统RDBMS中数据一般是以结构化的方式储存的,所以这种数据对格式有着明确的要求:必须是定义精确的实体数据。但MapReduce却能处理包括结构化数据以及文本、影音、图等非结构化的数据。所以MapReduce处理数据要比传统RDBMS处理起来更强大。
MapReduce与RDBMS的主要区别如下表:表1.1
表1.1 MapReduce与RDBMS的比较
RDBMS
MapReduce
数据大小
GB
PB
访问
交叉式和批处理
批处理
更新
多次读写
一次写入多次读取
结构
静态模式
动态模式
集成度
高
低
伸缩性
非线性
线性
数据类型
结构化数据
结构化和非结构化数据
Hadoop利用HDFS将数据储存到集簇上的节点上,从而在PC上直接读取所需文件,省去了从网上进行数据传输的时间。Hadoop也就从另一方面提高了对数据的读取速度。
1.3Hadoop应用
随着Hadoop不断地完善与应用,越来越多的企业开始将原有的数据库处理系统替换为Hadoop平台数据库系统。它如今已经渗透到了各个行业:电子商务、电器管理、旅游管理、社交网络、搜索网站以及军事情报等。其中不乏全球知名企业:沃尔玛、eBay、Visa等。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/690.html