机器学习电离层数据分析【字数:9556】
电离层是距离地面60千米以上的整个大气层,其存在大量的自由电子和离子,能改变无线电波传播方向并使其发生折射、反射等。因此知道一片区域电离层的好坏,对用无线电波传递信息的无线通信具有重要意义。机器学习是通过对数据的研究让计算机拥有学习的能力,寻找数据的规律进而建立学习模型。本文对17组雷达回波数据进行分析研究,一共有 351个观察值,34 个输入变量和1个输出变量,输出为两个类别,一类为好,另一类为坏,因此这是一个二元分类问题。本文分别采用了支持向量机算法与朴素贝叶斯算法来构建学习模型,在测试集、训练集划分比例为2.5:7.5情况下,用支持向量机算法比用朴素贝叶斯算法构建的分类模型更优,最终能达到94%的分类准确率。
目录
1.绪论 1
1.1研究背景及意义 1
1.2机器学习概述 1
1.3本文的章节安排 1
2.数据预处理 3
2.1导入标准库 3
2.2导入数据集 3
2.3重复数据的处理 3
2.4数据分类 4
2.5创建训练集和测试集 5
2.6特征缩放 5
3.分类模型的学习效果评价 7
3.1 准确率 7
3.2 精度、召回率、F1得分 7
3.3 AUC值与ROC曲线 8
4.数据特征缩放对分类模型的影响 9
4.1未对数据进行特征缩放 9
4.2对数据进行归一化处理 9
4.3对数据进行标准化处理 10
5.数据划分对分类模型的影响 11
5.1 train_test_split函数划分数据集 11
5.1.1 测试集与训练集的划分比例为1:9 11
5.1.2 测试集与训练集的划分比例为2:8 11
5.1.3 测试集与训练集的划分比例为3:7 12
5.2 cross_val_score交叉验证 12
5.2.1 将数据集分成10份 12
5.2.2 将数据集分成5份 13
6.支持向量机(SVM) 15
6.1支持向量机(SVM)算法概 *好棒文|www.hbsrm.com +Q: @351916072@
述 15
6.2 不同核函数对分类模型的影响 15
6.2.1线性核函数(linear) 15
6.2.2高斯核函数(rbf) 15
6.3 不同惩罚值对分类模型的影响 16
6.3.1惩罚值C=1与C=2 16
6.3.2不同惩罚值得到的模型准确率 17
7.朴素贝叶斯 19
7.1 朴素贝叶斯算法概述 19
7.2 GaussianNB与BernoulliNB 19
7.2.1 GaussianNB对分类模型的影响 19
7.2.2 BernoulliNB对分类模型的影响 19
8.总结与展望 21
8.1论文工作总结 21
8.2展望 21
参考文献 23
附录 24
致谢 26
1.绪论
1.1研究背景及意义
随着互联网与信息技术的迅速发展,人们对手机等无线通信产品的依赖越来越大,而无线通信是利用无线电波在电离层中的反射、折射来传递信号的,因此对电离层的研究也就显得极为重要。电离层是指受太阳高能辐射以及宇宙线的激励而电离的大气高层,是距离地面60公里及其以上大气层的电离区域。
电离层与我们的生活息息相关,这不仅仅表现在无线通信上,同样广播、无线导航、雷达定位等也都受到电离层的影响。通过对给定的电离层中的自由电子的雷达回波数据来分析电离层,进而达到预测大气结构的目的,这不仅仅能让我们能够更加清晰的了解大气结构,也能对无线通信、雷达定位等技术的发展起到很好的促进作用,进而使我们的日常生活变得更加的智能、便捷。
1.2机器学习概述
机器学习是一门涉及多门学科的交叉学科,它是人工智能的核心。其研究的是通过计算机来模拟或实现人类的学习行为,它主要是设计和分析一些让计算机可以自动“学习”的算法。计算机应用这些算法能从数据中自动分析获得规律和模型,并利用规律和模型对未知数据进行预测。根据机器学习和分析的方式可将机器学习算法分成监督学习、非监督学习和半监督学习。监督学习是采用已知正确答案,通常称作标记的数据来训练,通过反馈验证得到学习模型;无监督学习是采用未标记的数据来训练,通过推断得到数据结构;半监督学习介于两者之间,其学习的数据只有一小部分是标记的,其余是没有标记的。机器学习的应用领域非常广泛,如数据挖掘、机器人、搜索引擎等。
1.3本文的章节安排
(1)第1章是绪论,介绍了对电离层进行数据分析的意义与什么是机器学习。
(2)第2章为数据预处理,介绍了数据预处理步骤。
(3)第3章为分类模型的学习效果评价,介绍了分类模型的评价指标。
(4)第4章为特征缩放分类模型的影响,介绍了有无特征缩放对分类模型学习效果的影响。
(5)第5章为数据划分对分类模型的影响,介绍了数据集、测试集划分不同比例对分类模型学习效果的影响。
(6)第6章为支持向量机对分类模型的影响,介绍了支持向量机函数中不同的参数对分类模型学习效果的影响。
(7)第7章为朴素贝叶斯对分类模型的影响,介绍了不同朴素贝叶斯函数对分类模型学习效果的影响。
(8)第8章为总结与展望,为本次论文的总结与展望。
2.数据预处理
2.1导入标准库
在此电离层数据集中使用了numpy、pandas和matplotlib三个标准库,numpy库针对数组运算提供大量的数学函数库,支持高阶高维数组与矩阵运算。pandas库收录了能够快捷处理数据的函数、方法和数据模型,提供了高效地操作大型数据集所需的工具。matplotlib.pyplot是Python上的一个2D绘图库,它可用于绘制各种图形。
目录
1.绪论 1
1.1研究背景及意义 1
1.2机器学习概述 1
1.3本文的章节安排 1
2.数据预处理 3
2.1导入标准库 3
2.2导入数据集 3
2.3重复数据的处理 3
2.4数据分类 4
2.5创建训练集和测试集 5
2.6特征缩放 5
3.分类模型的学习效果评价 7
3.1 准确率 7
3.2 精度、召回率、F1得分 7
3.3 AUC值与ROC曲线 8
4.数据特征缩放对分类模型的影响 9
4.1未对数据进行特征缩放 9
4.2对数据进行归一化处理 9
4.3对数据进行标准化处理 10
5.数据划分对分类模型的影响 11
5.1 train_test_split函数划分数据集 11
5.1.1 测试集与训练集的划分比例为1:9 11
5.1.2 测试集与训练集的划分比例为2:8 11
5.1.3 测试集与训练集的划分比例为3:7 12
5.2 cross_val_score交叉验证 12
5.2.1 将数据集分成10份 12
5.2.2 将数据集分成5份 13
6.支持向量机(SVM) 15
6.1支持向量机(SVM)算法概 *好棒文|www.hbsrm.com +Q: @351916072@
述 15
6.2 不同核函数对分类模型的影响 15
6.2.1线性核函数(linear) 15
6.2.2高斯核函数(rbf) 15
6.3 不同惩罚值对分类模型的影响 16
6.3.1惩罚值C=1与C=2 16
6.3.2不同惩罚值得到的模型准确率 17
7.朴素贝叶斯 19
7.1 朴素贝叶斯算法概述 19
7.2 GaussianNB与BernoulliNB 19
7.2.1 GaussianNB对分类模型的影响 19
7.2.2 BernoulliNB对分类模型的影响 19
8.总结与展望 21
8.1论文工作总结 21
8.2展望 21
参考文献 23
附录 24
致谢 26
1.绪论
1.1研究背景及意义
随着互联网与信息技术的迅速发展,人们对手机等无线通信产品的依赖越来越大,而无线通信是利用无线电波在电离层中的反射、折射来传递信号的,因此对电离层的研究也就显得极为重要。电离层是指受太阳高能辐射以及宇宙线的激励而电离的大气高层,是距离地面60公里及其以上大气层的电离区域。
电离层与我们的生活息息相关,这不仅仅表现在无线通信上,同样广播、无线导航、雷达定位等也都受到电离层的影响。通过对给定的电离层中的自由电子的雷达回波数据来分析电离层,进而达到预测大气结构的目的,这不仅仅能让我们能够更加清晰的了解大气结构,也能对无线通信、雷达定位等技术的发展起到很好的促进作用,进而使我们的日常生活变得更加的智能、便捷。
1.2机器学习概述
机器学习是一门涉及多门学科的交叉学科,它是人工智能的核心。其研究的是通过计算机来模拟或实现人类的学习行为,它主要是设计和分析一些让计算机可以自动“学习”的算法。计算机应用这些算法能从数据中自动分析获得规律和模型,并利用规律和模型对未知数据进行预测。根据机器学习和分析的方式可将机器学习算法分成监督学习、非监督学习和半监督学习。监督学习是采用已知正确答案,通常称作标记的数据来训练,通过反馈验证得到学习模型;无监督学习是采用未标记的数据来训练,通过推断得到数据结构;半监督学习介于两者之间,其学习的数据只有一小部分是标记的,其余是没有标记的。机器学习的应用领域非常广泛,如数据挖掘、机器人、搜索引擎等。
1.3本文的章节安排
(1)第1章是绪论,介绍了对电离层进行数据分析的意义与什么是机器学习。
(2)第2章为数据预处理,介绍了数据预处理步骤。
(3)第3章为分类模型的学习效果评价,介绍了分类模型的评价指标。
(4)第4章为特征缩放分类模型的影响,介绍了有无特征缩放对分类模型学习效果的影响。
(5)第5章为数据划分对分类模型的影响,介绍了数据集、测试集划分不同比例对分类模型学习效果的影响。
(6)第6章为支持向量机对分类模型的影响,介绍了支持向量机函数中不同的参数对分类模型学习效果的影响。
(7)第7章为朴素贝叶斯对分类模型的影响,介绍了不同朴素贝叶斯函数对分类模型学习效果的影响。
(8)第8章为总结与展望,为本次论文的总结与展望。
2.数据预处理
2.1导入标准库
在此电离层数据集中使用了numpy、pandas和matplotlib三个标准库,numpy库针对数组运算提供大量的数学函数库,支持高阶高维数组与矩阵运算。pandas库收录了能够快捷处理数据的函数、方法和数据模型,提供了高效地操作大型数据集所需的工具。matplotlib.pyplot是Python上的一个2D绘图库,它可用于绘制各种图形。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/607.html