机器学习真伪钞判断物理与电子信息工程【字数:9833】
摘 要本文用机器学习方法分析真钞与伪钞的数据,寻找其内部的规律特征进而实现自动分辨真伪钞的功能,此次研究在帮助识别真伪钞方面具有重要的意义。本文运用了专业的真伪钞数据库,它由1372组数据构成,每组数据包含了四个输入变量、一个输出变量和一个真钞或伪钞的判断输出变量。通过逻辑回归、决策树和随机森林三种学习方法,对数据库在不同测试集与数据集分配比例下,计算得到相应的准确率,并根据这一准确率对真钞伪钞做出判断,最后得到结论。本文主要阐述了一些有关真伪钞判断的学习思路和对此研究建立的模型框架,之后运用不同分类学习算法对最终的研究结果作出判断,最后真伪钞的判断能够被机器学习运用的算法所验证。
目录
1 绪论 1
1.1 课题研究的背景 1
1.2 课题研究内容 1
2 分类方法简介 3
2.1算法选择 3
2.1.1逻辑回归 3
2.1.2决策树 3
2.1.3随机森林 4
2.2 本章小结 5
3 数据的预处理 6
3.1标准数据库的导入 6
3.2数据集的导入 6
3.2.1 重复数据的处理 7
3.2.2 缺失数据的处理 8
3.3数据的分类 9
3.4本章小结 10
4 建模分析 11
4.1逻辑回归建模分析 11
4.2决策树建模分析 13
4.3随机森林建模分析 15
4.4 本章小结 16
5 结语 17
参考文献 18
致谢 19
1 绪论
1.1 课题研究的背景
首先,机器学习真伪钞判断这个课题主要就是涉及到人工智能这方面的问题。[1]在这个领域里面,人们谈论到最多的就是有关智能和人类的生活,如今人工智能技术早已体现在我们生活的诸多领域中,生活中随时都会有人工智能的存在,例如自动驾驶技术、机器人学、图像识别、搜索引擎等这些领域都有着不俗的表现。[2]现在人类都在走向学习人工智能的一个趋势,对于现代人类是一个不错的选择,那么学习人工智能就需要一种机器语言的学习。
*好棒文|www.hbsrm.com +Q: ¥351916072$
Python语言是一种计算机程序语言,它属于机器语言的一种,而且这种语言是一种越来越被今后人类所使用的一种语言。[3]刚开始,它只是一种动态的、面向对象的脚本语言,是用来编写自动化脚本的,但是随着版本的不断更新和语言的新功能添加,Python语言现在越来越多被用于独立的、大型项目的开发。[4]
1.2 课题研究内容
该课题研究的主要内容在于应用Python语言来创造一个机器学习的模型,该模型是至于研究机器学习真伪钞判断的,该模型是构建整个研究的一个框架,是至关重要的一个部分,设计和分析一些可以让计算机自动“学习”算法,接下来就是计算机本身应用这些算法自己从数据中自动分析获得规律和模型,然后运用这些规律和模型对一些未知数进行预测。预测的是学习研究课题的一个准确性的判断,将这些数据集分类学习,不同的分类学习方法都有不同的准确率。然后就是抽取比率的不同,抽取不同比率的数据集进行学习是探讨本次研究得到结果的一个过程关键。[5]
课题研究的是机器学习真伪钞的判断,首先要先分几个方面:
构造一个机器学习的模型;
设计机器学习真伪钞判断的算法;
在机器学习中判断真伪钞的一个变量的问题。
本课题的论文形式主要是刚开始阐述这方面人工智能的介绍和研究这个课题所要经历的一些过程,之后论文的书写就是根据这些过程把每个过程涉及到的问题、数据和运用的方法与每一步之间的联系阐述清楚,最后得到一个整个研究的清晰的步骤,在这些步骤之间相互的联系和原理都要把它搞清楚。刚开始的构建模型到最后的达到学习成果,并不是每部都是那样来做也要靠自己继续拓展研究下去,因为每一步都是结合起来的。
开始尝试机器学习库可以从安装最基础也是最重要的开始,像numpy和scipy对于那些很多工作在人工智能领域的人来说,他们也不是刚开始就去接触很多很深入的东西,也不会很急的去用硬件有关的东西去学习软件的知识。能把这门人工智能领域的东西学好,首先就得从最基础的做起,肯定是不能急于求成。学好了机器学习的库,对于学习机器学习的人来说至关重要。
对于此次的研究,把握问题的关键是学习机器学习的一个拐着点,一个好的机器学习不需要人为的去担心什么问题,只要自己知道它是计算机自己去学习,我们只需要将自己研究的一种东西去让机器学习,让机器去读懂一种算法然后并根据得到的一种规律和模型去推测未知数据,这种思想成熟后,就懂得机器学习需要走的一个步骤环节。
首先刚开始也要知道,机器学习真伪钞判断是一个二元分类问题,知道了是二元分类问题,之后的步骤就会朝着数据的分类考虑。
2 分类方法简介
2.1算法选择
有关此次研究用到的分类算法本文介绍了五种分类算法,分别是:逻辑回归,支持向量机,朴树贝叶斯,随机森林和决策树。这几种算法主要是此次研究能用到的几种算法,其实在机器学习里面,还有很多种分类算法,其它的学习方法可以在今后的学习中自主学习。
本文选取了三种分类器来研究在处理相同真伪钞数据模型时不同情况下的学习成果,分别运用了一个作为判别学习算法的逻辑回归(Logistic Regression)模型,决策树(Decision Tree)模型和一种属于多分类器的叫做随机森林(Random Forest)来进行本文的研究。
2.1.1逻辑回归
简单来说逻辑回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解的过程可以由最优化的算法来完成,在优化的算法中,最常用的就是梯度上升算法。随机梯度的上升算法与梯度上升算法的效果差不多,但是占用了更少的资源。另外随机梯度[6]上升是一个在线的算法,在最新的数据到来的时候就会完成参数的更新。所以不需要重新读取整个数据集以此来进行的批处理运算。原理:逻辑回归的一个主要思想就是它要根据现有的数据对分类界线建立回归公式以此进行分类。[7]
目录
1 绪论 1
1.1 课题研究的背景 1
1.2 课题研究内容 1
2 分类方法简介 3
2.1算法选择 3
2.1.1逻辑回归 3
2.1.2决策树 3
2.1.3随机森林 4
2.2 本章小结 5
3 数据的预处理 6
3.1标准数据库的导入 6
3.2数据集的导入 6
3.2.1 重复数据的处理 7
3.2.2 缺失数据的处理 8
3.3数据的分类 9
3.4本章小结 10
4 建模分析 11
4.1逻辑回归建模分析 11
4.2决策树建模分析 13
4.3随机森林建模分析 15
4.4 本章小结 16
5 结语 17
参考文献 18
致谢 19
1 绪论
1.1 课题研究的背景
首先,机器学习真伪钞判断这个课题主要就是涉及到人工智能这方面的问题。[1]在这个领域里面,人们谈论到最多的就是有关智能和人类的生活,如今人工智能技术早已体现在我们生活的诸多领域中,生活中随时都会有人工智能的存在,例如自动驾驶技术、机器人学、图像识别、搜索引擎等这些领域都有着不俗的表现。[2]现在人类都在走向学习人工智能的一个趋势,对于现代人类是一个不错的选择,那么学习人工智能就需要一种机器语言的学习。
*好棒文|www.hbsrm.com +Q: ¥351916072$
Python语言是一种计算机程序语言,它属于机器语言的一种,而且这种语言是一种越来越被今后人类所使用的一种语言。[3]刚开始,它只是一种动态的、面向对象的脚本语言,是用来编写自动化脚本的,但是随着版本的不断更新和语言的新功能添加,Python语言现在越来越多被用于独立的、大型项目的开发。[4]
1.2 课题研究内容
该课题研究的主要内容在于应用Python语言来创造一个机器学习的模型,该模型是至于研究机器学习真伪钞判断的,该模型是构建整个研究的一个框架,是至关重要的一个部分,设计和分析一些可以让计算机自动“学习”算法,接下来就是计算机本身应用这些算法自己从数据中自动分析获得规律和模型,然后运用这些规律和模型对一些未知数进行预测。预测的是学习研究课题的一个准确性的判断,将这些数据集分类学习,不同的分类学习方法都有不同的准确率。然后就是抽取比率的不同,抽取不同比率的数据集进行学习是探讨本次研究得到结果的一个过程关键。[5]
课题研究的是机器学习真伪钞的判断,首先要先分几个方面:
构造一个机器学习的模型;
设计机器学习真伪钞判断的算法;
在机器学习中判断真伪钞的一个变量的问题。
本课题的论文形式主要是刚开始阐述这方面人工智能的介绍和研究这个课题所要经历的一些过程,之后论文的书写就是根据这些过程把每个过程涉及到的问题、数据和运用的方法与每一步之间的联系阐述清楚,最后得到一个整个研究的清晰的步骤,在这些步骤之间相互的联系和原理都要把它搞清楚。刚开始的构建模型到最后的达到学习成果,并不是每部都是那样来做也要靠自己继续拓展研究下去,因为每一步都是结合起来的。
开始尝试机器学习库可以从安装最基础也是最重要的开始,像numpy和scipy对于那些很多工作在人工智能领域的人来说,他们也不是刚开始就去接触很多很深入的东西,也不会很急的去用硬件有关的东西去学习软件的知识。能把这门人工智能领域的东西学好,首先就得从最基础的做起,肯定是不能急于求成。学好了机器学习的库,对于学习机器学习的人来说至关重要。
对于此次的研究,把握问题的关键是学习机器学习的一个拐着点,一个好的机器学习不需要人为的去担心什么问题,只要自己知道它是计算机自己去学习,我们只需要将自己研究的一种东西去让机器学习,让机器去读懂一种算法然后并根据得到的一种规律和模型去推测未知数据,这种思想成熟后,就懂得机器学习需要走的一个步骤环节。
首先刚开始也要知道,机器学习真伪钞判断是一个二元分类问题,知道了是二元分类问题,之后的步骤就会朝着数据的分类考虑。
2 分类方法简介
2.1算法选择
有关此次研究用到的分类算法本文介绍了五种分类算法,分别是:逻辑回归,支持向量机,朴树贝叶斯,随机森林和决策树。这几种算法主要是此次研究能用到的几种算法,其实在机器学习里面,还有很多种分类算法,其它的学习方法可以在今后的学习中自主学习。
本文选取了三种分类器来研究在处理相同真伪钞数据模型时不同情况下的学习成果,分别运用了一个作为判别学习算法的逻辑回归(Logistic Regression)模型,决策树(Decision Tree)模型和一种属于多分类器的叫做随机森林(Random Forest)来进行本文的研究。
2.1.1逻辑回归
简单来说逻辑回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解的过程可以由最优化的算法来完成,在优化的算法中,最常用的就是梯度上升算法。随机梯度的上升算法与梯度上升算法的效果差不多,但是占用了更少的资源。另外随机梯度[6]上升是一个在线的算法,在最新的数据到来的时候就会完成参数的更新。所以不需要重新读取整个数据集以此来进行的批处理运算。原理:逻辑回归的一个主要思想就是它要根据现有的数据对分类界线建立回归公式以此进行分类。[7]
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/606.html