机器学习声呐数据分析【字数:9335】
摘 要本课题是机器学习在数据挖掘领域的应用。通过机器学习分析声纳获得的208组数据分组,数据由从60个不同角度回波值强度值构成,寻找其中的规律,建立预测模型,判断给定目标物体是岩石还是金属。本课题基于Anaconda3开发环境,采用Python3.6.4软件编写程序,完成对数据的清洗、归一化、测试集和验证集的划分,再分别应用决策树、随机森林、支持向量机三种算法建立了学习模型。通过准确率结果分析,得出支持向量机的学习效果要优于其余两种算法和本数据集的测试集占比最佳划分比例为25%的结论。
目录
1 绪论 1
1.1课题研究的背景 1
1.2课题研究意义 1
2 开发环境以及算法选择 3
2.1开发环境简介 3
2.2算法的比较及选择 3
2.2.1“随机森林”算法 3
2.2.2“决策树”算法 4
2.2.3“支持向量机”算法 4
3 流程与程序设计 5
3.1数据预处理 5
3.1.1导入标准库 5
3.1.2导入数据集 5
3.1.3重复数据的处理 7
3.1.4缺失数据的处理 7
3.1.5创建训练集和测试集 8
3.1.6特征缩放 8
3.2创建学习模型 9
3.2.1随机森林 9
3.2.2决策树 9
3.2.3支持向量机 9
3.3学习效果评价方法 9
4 算法学习效果对比与分析 11
4.1方法 11
4.2学习效果评价 11
4.3结论分析 16
5 总结 18
5.1课题总结 18
5.2系统中存在的不足和可改进之处 18
参考文献 19
致谢 20
附录 21
1 绪论
机器学习是一门复杂的学科,在数据挖掘、医学诊断计算机视觉、搜索引擎、自然语言处理、生物特征识别等多领域交叉,是人工智能的一个重要分支。其中,机器学习中的算法是分析数据从而取得一定的规律,并使用这种规律 *好棒文|www.hbsrm.com +Q: ¥351916072¥
对以后未知数据进行预测。[1]可以说机器学习是人工智能在应用的领域中一个十分具有前景的研究方向。
机器学习目前在多个领域取得了一系列令人瞩目的成就。本课题《机器学习声纳数据分析》就是机器学习在数据挖掘领域的实际应用。该课题通过分析声呐从60个不同角度获得的208组回波值强度数据,由机器自动学习声呐数据的规律,并预测给定目标物体是岩石还是金属。该课题采用机器学习算法取代了传统的人工数据统计方法,无论在分类精度还是工作效率上都获得了显著的优势。
1.1 课题研究的背景
声呐是英文“SONAR”的音译,中文全称为:是一种利用声波在水下传播特殊性能,通过电声转换后得到信息,从而再进行处理,其中的水声信号处理是海洋以及信息等各个领域中最为活跃的学科之一。声呐的主要作用是完成水下探测以及通讯任务,是水声学中应用最广泛的一种装置。现代声呐已经超出原有“声音导航与测距”的简单定义,在本课题中我们利用声呐对水中目标进行探测,收集并分析数据,预测目标为金属还是岩石,从而更有效地发现所需目标进行相关后续操作。
随着21世纪的到来,从当前社会趋势上看,快速发展对水声信号处理技术的发展提出越来越高的要求。同时,社会中巨大的需求迫切需要提供新的更先进的手段来处理大量的水声信号。在这其中,机器学习对声呐实用性的推进是有目共睹的,声呐采集到数据后机器进行识别、分类,因此机器学习的精度、准确度是十分的重要,上文中所提到的机器学习算法等,即是对数据进行学习并加以分析后提供预测。通过改进算法提高预测结果的精确度,对于声呐数据分析起到了关键性的作用,这也是技术上的一种推进。
1.2 课题研究意义
在过去的十余年中,人工智能领域由于机器学习和深度学习等,发生了一些令人惊叹的变化。从如学术和研究领域等各个领域中,如大众所见,我们已经在众多的行业中看到许多技术采用了机器学习技术,这些行业横跨多个领域,如零售、技术、医疗保健、科学等。[2]21世纪,人工智能中的数据科学和机器学习的关键目标,已从运行实验室实验从而来发表研究论文的作用中,转变为解决负责逻辑问题和解决现实中的许多问题,甚至其中已经有部分自动化地处理复杂任务。有了人工智能,我们的生活因此变得更轻松,更加便捷。通常来说,机器学习在统计学和深度学习中的模型基本保持不变,但是新模型已层出不穷,相比之下同样的行业通常需要几年时间才能纳入应用。因此,在机器学习这个行业中,它们的焦点是更应该着重于"应用"而非理论上。更加有效地把机器学习中的算法和模型应用于正确的数据,并从而解决复杂的现实世界问题才是至关重要的。
机器学习模型其自身的内容,实际上是由一种算法组成,它试图从大量的数据中学习其中潜在的模式和关系,而无需通常意义上的硬编码制定规则。所以说,建立模型和解释模型如何对不同数据类型起作用才会带来一系列高难度的挑战。在众多行业中的一些领域,特别包括保险和银行这类的金融领域,数据学专家在人工智能发展后最终不得不使用机器学习模型。这其中的原因是,机器学习后的模型可解释性对于企业在今后的所采取的每个决策都非常的重要。机器学习中的许多复杂模型可以为我们提供更好,更准确,更加高效的性能。
人工智能技术日新月异,现在的机器学习技术更是今非昔比。因为机器学习可以非常独立地适应和分析新类型的数据模型,并且能从先前的运算和学习中产生可信赖的,重复的决策和大量运算后的结果,所以显得更为重要。这并非全新的学科,但是可使我们在当下获得更多全新的动力。
2 开发环境以及算法选择
机器学习就是通过算法,首先让机器熟悉并学习大量外界数据中的规律,然后进行识别判断。在机器学习中,最基本的做法就是利用各种不同的算法来学习和分析数据,从而进行大量的演算,对真实世界中的事件做出预测。这其中与软件程序不同的是,普通程序通过硬编码解决特定任务。但是机器学习不同,机器学习是使用大量数据来进行训练,通过各种算法和大量的数据从训练中学习如何完成任务。
本论文使用的是声呐数据集,其内容是描述声呐从不同曲面反弹后返回的数据集。其中每组输入的60个变量是声呐从不同角度返回的力度值,通过数据分析得到一个模型来预测并区分岩石Rock和金属Mine。这个数据集中有208组数据,所有变量的范围均为0至1。在数据处理及学习过程中,输出的变量“M”和“R”,需要转换为整数1和0。
目录
1 绪论 1
1.1课题研究的背景 1
1.2课题研究意义 1
2 开发环境以及算法选择 3
2.1开发环境简介 3
2.2算法的比较及选择 3
2.2.1“随机森林”算法 3
2.2.2“决策树”算法 4
2.2.3“支持向量机”算法 4
3 流程与程序设计 5
3.1数据预处理 5
3.1.1导入标准库 5
3.1.2导入数据集 5
3.1.3重复数据的处理 7
3.1.4缺失数据的处理 7
3.1.5创建训练集和测试集 8
3.1.6特征缩放 8
3.2创建学习模型 9
3.2.1随机森林 9
3.2.2决策树 9
3.2.3支持向量机 9
3.3学习效果评价方法 9
4 算法学习效果对比与分析 11
4.1方法 11
4.2学习效果评价 11
4.3结论分析 16
5 总结 18
5.1课题总结 18
5.2系统中存在的不足和可改进之处 18
参考文献 19
致谢 20
附录 21
1 绪论
机器学习是一门复杂的学科,在数据挖掘、医学诊断计算机视觉、搜索引擎、自然语言处理、生物特征识别等多领域交叉,是人工智能的一个重要分支。其中,机器学习中的算法是分析数据从而取得一定的规律,并使用这种规律 *好棒文|www.hbsrm.com +Q: ¥351916072¥
对以后未知数据进行预测。[1]可以说机器学习是人工智能在应用的领域中一个十分具有前景的研究方向。
机器学习目前在多个领域取得了一系列令人瞩目的成就。本课题《机器学习声纳数据分析》就是机器学习在数据挖掘领域的实际应用。该课题通过分析声呐从60个不同角度获得的208组回波值强度数据,由机器自动学习声呐数据的规律,并预测给定目标物体是岩石还是金属。该课题采用机器学习算法取代了传统的人工数据统计方法,无论在分类精度还是工作效率上都获得了显著的优势。
1.1 课题研究的背景
声呐是英文“SONAR”的音译,中文全称为:是一种利用声波在水下传播特殊性能,通过电声转换后得到信息,从而再进行处理,其中的水声信号处理是海洋以及信息等各个领域中最为活跃的学科之一。声呐的主要作用是完成水下探测以及通讯任务,是水声学中应用最广泛的一种装置。现代声呐已经超出原有“声音导航与测距”的简单定义,在本课题中我们利用声呐对水中目标进行探测,收集并分析数据,预测目标为金属还是岩石,从而更有效地发现所需目标进行相关后续操作。
随着21世纪的到来,从当前社会趋势上看,快速发展对水声信号处理技术的发展提出越来越高的要求。同时,社会中巨大的需求迫切需要提供新的更先进的手段来处理大量的水声信号。在这其中,机器学习对声呐实用性的推进是有目共睹的,声呐采集到数据后机器进行识别、分类,因此机器学习的精度、准确度是十分的重要,上文中所提到的机器学习算法等,即是对数据进行学习并加以分析后提供预测。通过改进算法提高预测结果的精确度,对于声呐数据分析起到了关键性的作用,这也是技术上的一种推进。
1.2 课题研究意义
在过去的十余年中,人工智能领域由于机器学习和深度学习等,发生了一些令人惊叹的变化。从如学术和研究领域等各个领域中,如大众所见,我们已经在众多的行业中看到许多技术采用了机器学习技术,这些行业横跨多个领域,如零售、技术、医疗保健、科学等。[2]21世纪,人工智能中的数据科学和机器学习的关键目标,已从运行实验室实验从而来发表研究论文的作用中,转变为解决负责逻辑问题和解决现实中的许多问题,甚至其中已经有部分自动化地处理复杂任务。有了人工智能,我们的生活因此变得更轻松,更加便捷。通常来说,机器学习在统计学和深度学习中的模型基本保持不变,但是新模型已层出不穷,相比之下同样的行业通常需要几年时间才能纳入应用。因此,在机器学习这个行业中,它们的焦点是更应该着重于"应用"而非理论上。更加有效地把机器学习中的算法和模型应用于正确的数据,并从而解决复杂的现实世界问题才是至关重要的。
机器学习模型其自身的内容,实际上是由一种算法组成,它试图从大量的数据中学习其中潜在的模式和关系,而无需通常意义上的硬编码制定规则。所以说,建立模型和解释模型如何对不同数据类型起作用才会带来一系列高难度的挑战。在众多行业中的一些领域,特别包括保险和银行这类的金融领域,数据学专家在人工智能发展后最终不得不使用机器学习模型。这其中的原因是,机器学习后的模型可解释性对于企业在今后的所采取的每个决策都非常的重要。机器学习中的许多复杂模型可以为我们提供更好,更准确,更加高效的性能。
人工智能技术日新月异,现在的机器学习技术更是今非昔比。因为机器学习可以非常独立地适应和分析新类型的数据模型,并且能从先前的运算和学习中产生可信赖的,重复的决策和大量运算后的结果,所以显得更为重要。这并非全新的学科,但是可使我们在当下获得更多全新的动力。
2 开发环境以及算法选择
机器学习就是通过算法,首先让机器熟悉并学习大量外界数据中的规律,然后进行识别判断。在机器学习中,最基本的做法就是利用各种不同的算法来学习和分析数据,从而进行大量的演算,对真实世界中的事件做出预测。这其中与软件程序不同的是,普通程序通过硬编码解决特定任务。但是机器学习不同,机器学习是使用大量数据来进行训练,通过各种算法和大量的数据从训练中学习如何完成任务。
本论文使用的是声呐数据集,其内容是描述声呐从不同曲面反弹后返回的数据集。其中每组输入的60个变量是声呐从不同角度返回的力度值,通过数据分析得到一个模型来预测并区分岩石Rock和金属Mine。这个数据集中有208组数据,所有变量的范围均为0至1。在数据处理及学习过程中,输出的变量“M”和“R”,需要转换为整数1和0。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/640.html