机器学习小麦种子分类【字数:9067】
摘 要通过小麦的特征数据,采用机器学习预测小麦的种子类型。对提高小麦的种子分类技术水平的具有重要的意义。机器学习小麦种子分类,收集小麦种子的各种特征类型,汇聚成小麦种子数据集。本数据集包含了210组观察值,每组数据由七个影响小麦种子类型的因素组成区域,种子周长,种子压实度,籽粒长度,籽粒宽度,籽粒不对称系数,籽粒腹沟长度。对小麦种子数据集,首先进行数据预处理,包括数据清洗、数据分类、特征缩放等过程。然后使用逻辑回归,支持向量机和随机森林创建学习模型。最后通过准确率指标对学习模型进行性能评价。实验结果证明,在验证集占比变化的情况下,逻辑回归算法的准确率最稳定,是完成对小麦种子分类的优选算法。
目 录
1 绪论 1
1.1 课题研究背景及意义 1
1.2 课题研究的工具及方法 1
1.3 论文的主要内容 2
2 小麦种子的数据整理 3
3 数据预处理 5
3.1 标准库及数据库的导入 5
3.2 导入数据集 6
3.3 重复数据的处理 8
3.4 创建训练集和测试集 9
3.5 特征缩放 9
3.6 构建混淆矩阵 10
3.7 本章小结 11
4 机器学习分类算法部分 12
4.1 逻辑回归 12
4.1.1 逻辑回归算法原理 12
4.1.2 用逻辑回归创建学习模型 12
4.2 支持向量机 12
4.2.1 支持向量机的原理与应用 12
4.2.2 用支持向量机创建学习模型 12
4.3 随机森林算法 13
4.3.1 随机森林算法原理 13
4.4本章小结 13
5 机器学习效果对比分析 14
5.1 非随机挑选验证集 14
5.1.1 逻辑回归算法的学习效果分析 14
5.1.2支持向量机算法学习效果分析 15
5.1.3 随机森林算法学习效果分析 15
5.1.4 三种算法之间学习效果比较 16
5.2 随机挑选验证集 17< *好棒文|www.hbsrm.com +Q: *351916072*
br /> 5.2.1 逻辑回归算法学习效果分析 17
5.2.2 支持向量机算法学习效果分析 19
5.2.3 随机森林算法学习效果分析 19
5.3.4 三种算法之间学习效果比较 20
6 总结 22
参考文献 23
致谢 25
附录一 26
附录二 29
1 绪论
课题研究背景及意义
在当今社会,小麦是必不可少的物品,因为我们的很多食物都是由小麦做成的。小麦主要是加工成面粉,做成各种面食。常见的有:馒头包子、大饼油条、水饺和烧卖的皮、面条卷面、饼干茶食、蛋糕面包、部分休闲食品等等。小麦是谷物中最重要的农作物,不同类型的小麦具有与众不同的营养价值,从而对其有不同的加工方式,所以对小麦种子分类识别在小麦的加工过程中起到非常重要的意义。
传统的小麦种子分类采用分拣技术,是按小麦种子的出入库顺序进行分门别类的堆放。但是这种方法效率低,分类的效果比极差。如果能够通过小麦的一些自身的特征就可以判断出小麦种子的类型,那么对于农业工作者来说将是一个福音,因为这样会省去很多繁琐的步骤,更加快速有效的将小麦种子进行分类。对接下来其它工作的进行打下更好的基础。
课题研究的工具及方法
为了能够更好的对小麦种子进行分类,光是靠我们自己的总结和归纳是不够好的,因为这样的归纳不够系统,不是很有说服力,于是本文将使用机器语言中的Python语言根据小麦种子的以下特征:区域,种子周长,种子压实度,籽粒长度,籽粒宽度,籽粒不对称系数,籽粒腹沟长度进行一个系统化的学习。计算机应用这些算法从数据中自动分析获得规律和模型,并利用规律和模型对未知数据进行预测的算法。
根据机器学习和分析的方式可将机器学习算法分成监督学习、非监督学习和半监督学习。 监督学习是采用已知正确答案,通常称作标记的数据来训练,通过反馈验证得到学习模型;无监督学习往往没有丰富的先验知识,所以很难用人工来标注类别。无监督学习是采用未标记的数据来训练,通过推断得到数据结构;半监督学习介于两者之间,其学习的数据,只有一小部分是标记的,其余是没有标记的。
采用机器学习分析数据,在学习建模和算法选择时,用户可以根据自身对数据的了解,选择更加合适的算法,在算法确定之后,用该算法进行建模。机器学习将会自主寻找数据之间的规律,进行一个学习。对数据进行一个系统的分析,从而突出主要联系,进而分析数据的趋势,对数据的预测更加准确。整个机器学习的过程相对于传统统计学方法而言,效率更高,结果更加准确。
为什么在众多的机器语言中选择了Python语言,是因为Python 语言是众多机器学习开发语言中非常先进的,它是一种解释性语言,容易学习和理解。它拥有众多成熟的机器学习工具包以及科学计算开发包,开发人员使用起来非常方便。
本课题主要进行数据挖掘和机器学习,相比较其他编程语言而言,选择Python的原因是它具有简洁明了以及开源的优势。在对提供的小麦种子数据进行处理后,可以更好地实现分析小麦种子数据之间的关系。运算具有普遍性,因此Python非常适合用来完成本次课题。
1.3 论文的主要内容
本课题主要内容是基于Python语言来实现机器学习小麦种子数据分析,论文包括了下面的内容:
第一部分:绪论,该部分主要介绍了本课题的研究目的及其意义,机器学习小麦种子分类的研究现状及发展,机器学习小麦种子分类的主要流程。
第二部分:该部分主要介绍了对小麦种子数据集的预处理,包括了相关的代码以及处理之后的效果图。
第三部分:该部分是算法的实现部分,主要包括选用不同的方法来构建学习模型,完成训练集和测试集的创建,并且把训练集和测试集按不同比例划分,通过这样来完成模型的预测以及学习效果的评价。
第四部分:这一部分为机器学习小麦种子数据的成果的展示部分,其中包含了三种算法之间的结果比较,分析三种算法的特点,以及调整训练集和测试集的比例以后对准确率的影响,最后得出结论采用哪种算法对本课题的学习效果最好。
第五部分:总结部分,总结毕业设计中遇到的困难以及解决方法,总结自己在毕业设计中的收获和需要去改进的地方。2 小麦种子的数据整理
首先在一开始,得到的是一份没有整理,看上去有些杂乱无章的数据集,并且看上去是表格形式,如图2.1,后来经过观察,得出结论可能该文件的原格式为文本文件的格式,所以先将该文件转化为文本文件的格式,得到如图2.2所示的文本。并且把一些没有对齐的数据对齐,经过整理后再将文本转化为csv格式,再经过简单整理,开始乱的数据一下子变得井井有条,如图2.3。这不仅仅看上去更舒服,更是后面为了方便让机器学习不可缺少的一个步骤。
目 录
1 绪论 1
1.1 课题研究背景及意义 1
1.2 课题研究的工具及方法 1
1.3 论文的主要内容 2
2 小麦种子的数据整理 3
3 数据预处理 5
3.1 标准库及数据库的导入 5
3.2 导入数据集 6
3.3 重复数据的处理 8
3.4 创建训练集和测试集 9
3.5 特征缩放 9
3.6 构建混淆矩阵 10
3.7 本章小结 11
4 机器学习分类算法部分 12
4.1 逻辑回归 12
4.1.1 逻辑回归算法原理 12
4.1.2 用逻辑回归创建学习模型 12
4.2 支持向量机 12
4.2.1 支持向量机的原理与应用 12
4.2.2 用支持向量机创建学习模型 12
4.3 随机森林算法 13
4.3.1 随机森林算法原理 13
4.4本章小结 13
5 机器学习效果对比分析 14
5.1 非随机挑选验证集 14
5.1.1 逻辑回归算法的学习效果分析 14
5.1.2支持向量机算法学习效果分析 15
5.1.3 随机森林算法学习效果分析 15
5.1.4 三种算法之间学习效果比较 16
5.2 随机挑选验证集 17< *好棒文|www.hbsrm.com +Q: *351916072*
br /> 5.2.1 逻辑回归算法学习效果分析 17
5.2.2 支持向量机算法学习效果分析 19
5.2.3 随机森林算法学习效果分析 19
5.3.4 三种算法之间学习效果比较 20
6 总结 22
参考文献 23
致谢 25
附录一 26
附录二 29
1 绪论
课题研究背景及意义
在当今社会,小麦是必不可少的物品,因为我们的很多食物都是由小麦做成的。小麦主要是加工成面粉,做成各种面食。常见的有:馒头包子、大饼油条、水饺和烧卖的皮、面条卷面、饼干茶食、蛋糕面包、部分休闲食品等等。小麦是谷物中最重要的农作物,不同类型的小麦具有与众不同的营养价值,从而对其有不同的加工方式,所以对小麦种子分类识别在小麦的加工过程中起到非常重要的意义。
传统的小麦种子分类采用分拣技术,是按小麦种子的出入库顺序进行分门别类的堆放。但是这种方法效率低,分类的效果比极差。如果能够通过小麦的一些自身的特征就可以判断出小麦种子的类型,那么对于农业工作者来说将是一个福音,因为这样会省去很多繁琐的步骤,更加快速有效的将小麦种子进行分类。对接下来其它工作的进行打下更好的基础。
课题研究的工具及方法
为了能够更好的对小麦种子进行分类,光是靠我们自己的总结和归纳是不够好的,因为这样的归纳不够系统,不是很有说服力,于是本文将使用机器语言中的Python语言根据小麦种子的以下特征:区域,种子周长,种子压实度,籽粒长度,籽粒宽度,籽粒不对称系数,籽粒腹沟长度进行一个系统化的学习。计算机应用这些算法从数据中自动分析获得规律和模型,并利用规律和模型对未知数据进行预测的算法。
根据机器学习和分析的方式可将机器学习算法分成监督学习、非监督学习和半监督学习。 监督学习是采用已知正确答案,通常称作标记的数据来训练,通过反馈验证得到学习模型;无监督学习往往没有丰富的先验知识,所以很难用人工来标注类别。无监督学习是采用未标记的数据来训练,通过推断得到数据结构;半监督学习介于两者之间,其学习的数据,只有一小部分是标记的,其余是没有标记的。
采用机器学习分析数据,在学习建模和算法选择时,用户可以根据自身对数据的了解,选择更加合适的算法,在算法确定之后,用该算法进行建模。机器学习将会自主寻找数据之间的规律,进行一个学习。对数据进行一个系统的分析,从而突出主要联系,进而分析数据的趋势,对数据的预测更加准确。整个机器学习的过程相对于传统统计学方法而言,效率更高,结果更加准确。
为什么在众多的机器语言中选择了Python语言,是因为Python 语言是众多机器学习开发语言中非常先进的,它是一种解释性语言,容易学习和理解。它拥有众多成熟的机器学习工具包以及科学计算开发包,开发人员使用起来非常方便。
本课题主要进行数据挖掘和机器学习,相比较其他编程语言而言,选择Python的原因是它具有简洁明了以及开源的优势。在对提供的小麦种子数据进行处理后,可以更好地实现分析小麦种子数据之间的关系。运算具有普遍性,因此Python非常适合用来完成本次课题。
1.3 论文的主要内容
本课题主要内容是基于Python语言来实现机器学习小麦种子数据分析,论文包括了下面的内容:
第一部分:绪论,该部分主要介绍了本课题的研究目的及其意义,机器学习小麦种子分类的研究现状及发展,机器学习小麦种子分类的主要流程。
第二部分:该部分主要介绍了对小麦种子数据集的预处理,包括了相关的代码以及处理之后的效果图。
第三部分:该部分是算法的实现部分,主要包括选用不同的方法来构建学习模型,完成训练集和测试集的创建,并且把训练集和测试集按不同比例划分,通过这样来完成模型的预测以及学习效果的评价。
第四部分:这一部分为机器学习小麦种子数据的成果的展示部分,其中包含了三种算法之间的结果比较,分析三种算法的特点,以及调整训练集和测试集的比例以后对准确率的影响,最后得出结论采用哪种算法对本课题的学习效果最好。
第五部分:总结部分,总结毕业设计中遇到的困难以及解决方法,总结自己在毕业设计中的收获和需要去改进的地方。2 小麦种子的数据整理
首先在一开始,得到的是一份没有整理,看上去有些杂乱无章的数据集,并且看上去是表格形式,如图2.1,后来经过观察,得出结论可能该文件的原格式为文本文件的格式,所以先将该文件转化为文本文件的格式,得到如图2.2所示的文本。并且把一些没有对齐的数据对齐,经过整理后再将文本转化为csv格式,再经过简单整理,开始乱的数据一下子变得井井有条,如图2.3。这不仅仅看上去更舒服,更是后面为了方便让机器学习不可缺少的一个步骤。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/609.html