splunk的网络日志大数据分析【字数:23926】
摘 要大数据是如今的顶级大趋势。在这种趋势下,数据数据就像在生长剂的作用下疯长的杂草一般从各种公共和私人渠道流出,且由于由于数量巨大,信息冗杂,人们往往很难从中获取有效信息。如今,数据以每年成倍增长。2020年的数据产量将是2009年的几十倍倍。这一变化主要是由于全球人口增长,人均设备持有数增长,新技术的应用以及日常设备和机器中传感器的使用(互联网又一大趋势)产生的。在此大前提下,批量处理机器数据成为了企业的不能忽视的一个大问题。机器数据是指那些能够为企业业务发展提供动力的应用、服务器、存储、网络设备、安全设备以及其他相关设备制造出来的数据。机器数据可以反映客户、交易、应用、服务器、网络等的行为或活动。机器数据的范围远远超越了日志。Splunk可以收集来自任何地方产生的数据,无论是物理环境、虚拟环境还是云环境。借助Splunk,用户可以在一个位置实时搜索、监控和分析来自不同位置的数据。过去需要花费数天解决的问题和安全事件借助Splunk可能只需几个小时或更短时间解决。正因如此,在本课题中将对Splunk在大数据分析中的应用进行分析和研究,并将给出相关的实施案例和解决方法。
目 录
1. 绪论 1
1.1 课题研究背景 1
1.2 课题研究意义 1
1.3 课题研究内容和成果 2
1.4 论文结构 2
2. 相关工作 1
2.1 大数据分析 1
2.1.1大数据分析的基本概念 1
2.1.2大数据计算体系架构 1
2.2 SPLUNK单实例与分布式部署 2
2.2.1 Splunk部署的目的与因素 2
2.2.2 Splunk组件介绍 3
2.2.3 Splunk单实例部署 4
2.2.4 Splunk分布式部署 5
2.2.5 Splunk集群部署 7
2.3 SPLUNK ADDON使用与相关的数据切割知识 8
2.4 SPLUNK 的SPL使用范例 10
2.4.1 SPL语言介绍 10
2.4.2通配符 10
2.4.3布尔表达式 11
2.4.4字段表达 *好棒文|www.hbsrm.com +Q: ¥351916072¥
式 11
2.4.5 NOT和!=的区别 12
2.4.6搜索剖析 13
2.4.7字段 14
2.4.8引用和转义字符 14
2.4.9 SPL和正则表达式 15
2.4.10使用CASE()和TERM()来匹配短语 16
2.4.11关于子搜索 16
2.4.12事件抽样 18
2.4.13 SPL中部分函数使用 19
3. 系统设计与实现 21
3.1 系统方案设计 21
3.1.1 开发环境 21
3.1.2 系统框架结构 21
3.1.3 系统模块设计 22
3.1.4 系统工作流程 22
3.2 系统功能介绍 24
3.2.1 底层服务器 24
3.2.2 应用客户端 24
3.3 系统实现 25
3.3.1 解决安全问题实现原理 25
3.3.2 数据传输实现 25
3.3.3 底层服务器实现 25
3.3.4 应用客户端实现 30
3.3.5 其他功能模块的实现 36
3.4 本章小结 37
4. 系统测试 38
4.1 测试方案 38
4.2 测试环境 38
4.2.1 硬件环境 38
4.2.2 软件环境 39
4.3 测试结果与分析 39
4.3.1 告警查询 39
4.4 本章小结 43
5. 总结与展望 44
5.1 论文工作总结 44
5.2 未来工作展望 45
6. 系统开发对社会的影响 46
6.1 社会影响 46
7. 参考文献 47
8. 致谢 48
绪论
1.1 课题研究背景
在号称全球五大机场之一的迪拜机场,旅客可以在五分钟甚至更短的时间内通过机场安检,之所以出现这样的场景,在天花板上安装的传感器功不可没,它可以监控安检队伍的情况。在经过后台的大数据分析后,我们可以判断在这情况下机场的安检队列是否需要增加。正是由于安全、大数据、人工智能等相关技术的不断发展完善才会有智慧的机场,智能的交通出行。
在21世纪,大数据科技经过日新月异的发展。物联网[1]、大数据[2]、工业4.0、云计算[3]等新兴词汇逐渐进入大众的视野,并被人们所熟知,在这其中,大数据更是作为一种重要的资源成为传统行业能否进行变革,顺应潮流的关键所在,可以说,人们在不断追求互联网技术的发展过程中,已经迈进了大数据时代[4]。每天TB级甚至PB级的数据量在每天的生产中由企业流出,而根据产生的主体不同,我们又可以将大数据主要分类为人为产生的行为数据与机器产生的机器数据。
行为数据在用户行为分析、定位用户特点,挖掘客户需求等方面具有巨大的价值,也能够为企业创造可观的经济价值。因此越来越多的公司主动参与到用户行为的研究中,希望通过对用户“画像”的方式,从而能够为用户定制个性化的服务。而机器数据虽然不能直观运用到用户行为分析,却关系到企业各方面的业务状况,为企业的正常运作保驾护航。因此对于企业来说,利用用户数据挖掘客户需求点,求得业务拓展方向固然重要,但如何将繁杂枯燥的机器数据转化为智能运维也是值得深思与投入的问题。
1.2 课题研究意义
人们已经进入了大数据时代,而大数据并不是定义为数据量大那么简单,大数据包含很多内容,其中4V是大数据最明显的特点,海量[5](Volume)代表着大数据量冗杂[6]、多样性(Variety)证明了数据种类繁多,不易统计、而快速(Velocity)、价值(Value)这两点证明了大数据可以将数据快速的化为有价值的内容。由此可见,“大数据”不仅是指数据量大或者海量数据,也取决于数据规模、数据类型、价值密度和处理速度。
Splunk可以收集物理环境、虚拟环境以及云环境等来自任何地方产生的数据。用户可以借助Splunk在一个位置对来自不同位置的数据进行实时搜索、分析及监控。借助Splunk解决问题或安全事件,只需几个小时或更短时间,在过去却要耗费加倍的时间去做。
因此,我们希望在此提出一种针对存在的大数据分析提出一种基于splunk软件的处理方式——认真研究Splunk的索引、搜索、告警[7]、报表、数据透视表[19]等功能,在此基础上进一步研究效率化搜索分类的方法:设计并实现一个邮件告警功能与splunk软件进行互联[20],达成大数据从导入到处理再到导出,最后实现告警的一个流程,以网络数据作为海量机器数据中一个具有日志数量大,种类冗杂的例子进行实验分析,探寻大数据未来发展方向与实践之路。
目 录
1. 绪论 1
1.1 课题研究背景 1
1.2 课题研究意义 1
1.3 课题研究内容和成果 2
1.4 论文结构 2
2. 相关工作 1
2.1 大数据分析 1
2.1.1大数据分析的基本概念 1
2.1.2大数据计算体系架构 1
2.2 SPLUNK单实例与分布式部署 2
2.2.1 Splunk部署的目的与因素 2
2.2.2 Splunk组件介绍 3
2.2.3 Splunk单实例部署 4
2.2.4 Splunk分布式部署 5
2.2.5 Splunk集群部署 7
2.3 SPLUNK ADDON使用与相关的数据切割知识 8
2.4 SPLUNK 的SPL使用范例 10
2.4.1 SPL语言介绍 10
2.4.2通配符 10
2.4.3布尔表达式 11
2.4.4字段表达 *好棒文|www.hbsrm.com +Q: ¥351916072¥
式 11
2.4.5 NOT和!=的区别 12
2.4.6搜索剖析 13
2.4.7字段 14
2.4.8引用和转义字符 14
2.4.9 SPL和正则表达式 15
2.4.10使用CASE()和TERM()来匹配短语 16
2.4.11关于子搜索 16
2.4.12事件抽样 18
2.4.13 SPL中部分函数使用 19
3. 系统设计与实现 21
3.1 系统方案设计 21
3.1.1 开发环境 21
3.1.2 系统框架结构 21
3.1.3 系统模块设计 22
3.1.4 系统工作流程 22
3.2 系统功能介绍 24
3.2.1 底层服务器 24
3.2.2 应用客户端 24
3.3 系统实现 25
3.3.1 解决安全问题实现原理 25
3.3.2 数据传输实现 25
3.3.3 底层服务器实现 25
3.3.4 应用客户端实现 30
3.3.5 其他功能模块的实现 36
3.4 本章小结 37
4. 系统测试 38
4.1 测试方案 38
4.2 测试环境 38
4.2.1 硬件环境 38
4.2.2 软件环境 39
4.3 测试结果与分析 39
4.3.1 告警查询 39
4.4 本章小结 43
5. 总结与展望 44
5.1 论文工作总结 44
5.2 未来工作展望 45
6. 系统开发对社会的影响 46
6.1 社会影响 46
7. 参考文献 47
8. 致谢 48
绪论
1.1 课题研究背景
在号称全球五大机场之一的迪拜机场,旅客可以在五分钟甚至更短的时间内通过机场安检,之所以出现这样的场景,在天花板上安装的传感器功不可没,它可以监控安检队伍的情况。在经过后台的大数据分析后,我们可以判断在这情况下机场的安检队列是否需要增加。正是由于安全、大数据、人工智能等相关技术的不断发展完善才会有智慧的机场,智能的交通出行。
在21世纪,大数据科技经过日新月异的发展。物联网[1]、大数据[2]、工业4.0、云计算[3]等新兴词汇逐渐进入大众的视野,并被人们所熟知,在这其中,大数据更是作为一种重要的资源成为传统行业能否进行变革,顺应潮流的关键所在,可以说,人们在不断追求互联网技术的发展过程中,已经迈进了大数据时代[4]。每天TB级甚至PB级的数据量在每天的生产中由企业流出,而根据产生的主体不同,我们又可以将大数据主要分类为人为产生的行为数据与机器产生的机器数据。
行为数据在用户行为分析、定位用户特点,挖掘客户需求等方面具有巨大的价值,也能够为企业创造可观的经济价值。因此越来越多的公司主动参与到用户行为的研究中,希望通过对用户“画像”的方式,从而能够为用户定制个性化的服务。而机器数据虽然不能直观运用到用户行为分析,却关系到企业各方面的业务状况,为企业的正常运作保驾护航。因此对于企业来说,利用用户数据挖掘客户需求点,求得业务拓展方向固然重要,但如何将繁杂枯燥的机器数据转化为智能运维也是值得深思与投入的问题。
1.2 课题研究意义
人们已经进入了大数据时代,而大数据并不是定义为数据量大那么简单,大数据包含很多内容,其中4V是大数据最明显的特点,海量[5](Volume)代表着大数据量冗杂[6]、多样性(Variety)证明了数据种类繁多,不易统计、而快速(Velocity)、价值(Value)这两点证明了大数据可以将数据快速的化为有价值的内容。由此可见,“大数据”不仅是指数据量大或者海量数据,也取决于数据规模、数据类型、价值密度和处理速度。
Splunk可以收集物理环境、虚拟环境以及云环境等来自任何地方产生的数据。用户可以借助Splunk在一个位置对来自不同位置的数据进行实时搜索、分析及监控。借助Splunk解决问题或安全事件,只需几个小时或更短时间,在过去却要耗费加倍的时间去做。
因此,我们希望在此提出一种针对存在的大数据分析提出一种基于splunk软件的处理方式——认真研究Splunk的索引、搜索、告警[7]、报表、数据透视表[19]等功能,在此基础上进一步研究效率化搜索分类的方法:设计并实现一个邮件告警功能与splunk软件进行互联[20],达成大数据从导入到处理再到导出,最后实现告警的一个流程,以网络数据作为海量机器数据中一个具有日志数量大,种类冗杂的例子进行实验分析,探寻大数据未来发展方向与实践之路。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/200.html