卷积神经网络及其在手写体识别上的应用
摘 要深度学习(Deep Learning)是人工智能新的研究点,相对于浅层学习而言,其构建的结构能够像人类大脑一样,而卷积神经网络(CNN)正是属于深度学习的范畴,是机器学习的研究热点,目前被广泛地应用于图像识别、语言识别、自然语言识别等多个领域,其性能不断被改进。手写体数字识别在数字自动化处理以及智能输入方面有广泛的应用前景,但是由于手写体数字的类别、形式、方法多样,给手写体数字的研究带来了不小的困难与挑战。因此本文对深度学习进行了研究,构建了一个多层的卷积神经网络的结构,并在keras环境下应用Python语言实现了该算法,最后将其应用于手写体数字的识别中,最终的实验结果验证了算法的有效性。
目 录
第一章 课题介绍 1
1.1 课题的意义 1
1.2 课题的发展现状和未来方向 1
1.3 论文章节安排 2
第二章 开发技术 4
2.1 开发平台 4
2.2 编程语言 5
第三章 算法介绍与数据分析 6
3.1 算法步骤 6
3.2 数据分析 8
第四章 算法的实现及其识别结果 10
4.1 算法的实现 10
4.2 实验结果 12
结束语 12
致谢 14
参考文献 15
第一章 课题介绍
1.1课题的意义
手写体数字识别的应用非常广泛,例如:政编码,财务报表,银行的票据等等。随着现在经济的增长,这些方面的应用需求也越来越大,人们对手写体数字识别的准确率和可靠性的要求也越来越高。迄今为止,世界对手写体识别技术的研究已经过去数十年了,在这几十年内,出现了许多方法对手写体进行识别,比如,IBM公司最早就开发了光学字符识别(Optical Character Recognition ,OCR)产品。我国在这方面的研究上相对其他国家比较晚,在20世纪70年代,我国才开始针对数字,符号以及英文字母进行研究,并在几年之后才开始对汉字进行识。因为汉字的复杂多样,所以,对数字识别的深度研究可以为汉字识别带来帮助。在过去的几十年中,出现了许多数字识别的方法,比如,模板匹配、类中心欧氏
*好棒文|www.hbsrm.com +Q: &351916072&
距离、贝叶斯分类算法等等,近年来卷积神经网络因其独特的性能,成为研究的热点。
20世纪60年代, Hubel和 Wiesel为了降低反馈神经网络的复杂性,对猫脑皮层进行研究,,继而提出了卷积神经网络(Convolutional Neural Networks简称CNN)。1980年,K.Fukushima提出了新的识别机,这种识别机是卷积神经网络实现的第一个网络。在这之后,越来越多的研究人员开始对卷积神经网络进行研究。目前,卷积神经网络已经成为了当今的热门研究点,尤其是在模式分类领域,它可以直接输入原始的图片,而且能够避免对图像复杂的预处理,这让它被广泛的利用。
所以本文的研究课题就是将卷积神经网络应用于手写体识别,并基于keras平台下,应用Python语言实现了实验平台,证明了算法的有效性。
1.2 课题的发展现状和未来方向
现今,卷及神经网络有以下几个方面可以研究:
1、基于卷积神经网络的形状识别[1,2]
人类的视觉分析和识别物体,基本就是以物体的形状为基础,在模式的识别领域中,通过分析物体的形状具有重大意义。在这方面的实际应用有行为识别[1],手势的识别[2]等。对于机器视觉来说,学习人类行为是一项挑战,因为识别静态图像只需要对一张图片的静态特征识别,而行为识别必须对一段视频的每一帧的运动进行识别,因此,就难度而言,行为识别的难度高得多,传统的识别算法过于依赖特定的数据集,这种人工设计的特征与理论不符,所以这种方式的算法并不完善。近年来出现的深度学习算法舍弃了依靠人工精心设计特征的方法,通过构建深度神经网络来自主学习特征[1]。所以,近年来研究人员也把CNN应用到行为识别上来,并且已经取得不菲的成果。
手势是人机交互的方式之一,通过这种方式可以实现人与机器的沟通[2]。目前引用最多的几种识别方法是基于人工神经网络的手势识别,基于隐马尔科夫模型的手势识别,基于几何特征的手势识别,虽然这几种方式出现的较早,但是,其缺点也是明显的,第一种对于动态手势的识别是不理想的,第二种训练的速度很慢,第三种识别率不高,这就需要寻找新的方式来进行识别。CNN的出现给解决这些问题带来了希望,并且已经有研究表明,利用CNN模型可以处理许多问题,比如,训练方法复杂,训练参数多,耗费时间久等问题。
2、基于卷积神经网络的人脸检测[3]
当今,人脸检测具有很重要的应用,例如在国家安全,军事安全领域,为了保证国家的安全,必须区别非正常工作人员的身份,这就使用到了人脸的识别与检测。同样的在驾校以及驾驶考试上,为了防止学员作弊,代考等等事件的发生,也可以用人脸识别。
现有的自动人脸识别技术只能应用于固定卡口的正面人脸识别,在复杂的动态环境下识别率很低[3]。传统的人脸识别技术得到的线性人脸特征抗干扰能力较差,特征不明显。虽然之后进行过改进,但是实际的效果还是不理想。相对于传统方式的人脸检测,卷积神经网络可以直接作用在输入的样本上,从而省略传统方式的建模,参数估计以及检测和模型重建过程。利用卷积神经网络的深度模型可以提取人脸的特征,这种提取是非线性的提取,所以这种模型有更高的抽象和表述能力[3]。
3、文字识别系统[4,5,6]
文献[4]对多字体的字符进行识别,文献[5]研究的是随机弹性形变的相似手写体汉字识别,文献[6]基于多重卷积神经网络对大规模联机手写文字识别。虽然都是对字符手写体的汉字等进行识别,但是,所需要达到的要求是不一样的,如果用传统的方式来,所需要的工作量是很大的,同时,最后的结果也不一定能够达到预期的目标。因此,寻找新的方式是很有必要的。
在经典的模式识别中,首先要提取特征,然后进行相关性分析,找出最能代表字符的特征。但是,由于人的主观意识以及特征分类的不同,这种方式会影响最后的分类性能,而卷积神经网络能够很好的进行识别。
与其他方式相比,CNN可以保存邻域的联系和空间的局部特点,和常见的全连接深度结构相比,CNN处理实际尺寸的高维图像也毫无难度,这是因为CNN是基于共享卷积核结构的。在OCR的领域中,CNN的优势是绝大多数模型难以抗衡的。
1.3 论文章节安排
在第一章主要介绍了课题:CNN的应用、背景、研究现状和未来的发展方向,以及手写体识别的应用。
在第二章介绍了算法运行所需要安装的系统,以及运行的环境,并详细介绍了安装系统和搭建环境的教程。
在第三章中对代码中每一个部分进行分析,对CNN模型参数进行分析。
在第四章中介绍了代码,并进行了实验。
最后进行了总结,并列举自己遇到的问题,以及还没解决的问题,未来的研究打算。
第二章 开发技术
目 录
第一章 课题介绍 1
1.1 课题的意义 1
1.2 课题的发展现状和未来方向 1
1.3 论文章节安排 2
第二章 开发技术 4
2.1 开发平台 4
2.2 编程语言 5
第三章 算法介绍与数据分析 6
3.1 算法步骤 6
3.2 数据分析 8
第四章 算法的实现及其识别结果 10
4.1 算法的实现 10
4.2 实验结果 12
结束语 12
致谢 14
参考文献 15
第一章 课题介绍
1.1课题的意义
手写体数字识别的应用非常广泛,例如:政编码,财务报表,银行的票据等等。随着现在经济的增长,这些方面的应用需求也越来越大,人们对手写体数字识别的准确率和可靠性的要求也越来越高。迄今为止,世界对手写体识别技术的研究已经过去数十年了,在这几十年内,出现了许多方法对手写体进行识别,比如,IBM公司最早就开发了光学字符识别(Optical Character Recognition ,OCR)产品。我国在这方面的研究上相对其他国家比较晚,在20世纪70年代,我国才开始针对数字,符号以及英文字母进行研究,并在几年之后才开始对汉字进行识。因为汉字的复杂多样,所以,对数字识别的深度研究可以为汉字识别带来帮助。在过去的几十年中,出现了许多数字识别的方法,比如,模板匹配、类中心欧氏
*好棒文|www.hbsrm.com +Q: &351916072&
距离、贝叶斯分类算法等等,近年来卷积神经网络因其独特的性能,成为研究的热点。
20世纪60年代, Hubel和 Wiesel为了降低反馈神经网络的复杂性,对猫脑皮层进行研究,,继而提出了卷积神经网络(Convolutional Neural Networks简称CNN)。1980年,K.Fukushima提出了新的识别机,这种识别机是卷积神经网络实现的第一个网络。在这之后,越来越多的研究人员开始对卷积神经网络进行研究。目前,卷积神经网络已经成为了当今的热门研究点,尤其是在模式分类领域,它可以直接输入原始的图片,而且能够避免对图像复杂的预处理,这让它被广泛的利用。
所以本文的研究课题就是将卷积神经网络应用于手写体识别,并基于keras平台下,应用Python语言实现了实验平台,证明了算法的有效性。
1.2 课题的发展现状和未来方向
现今,卷及神经网络有以下几个方面可以研究:
1、基于卷积神经网络的形状识别[1,2]
人类的视觉分析和识别物体,基本就是以物体的形状为基础,在模式的识别领域中,通过分析物体的形状具有重大意义。在这方面的实际应用有行为识别[1],手势的识别[2]等。对于机器视觉来说,学习人类行为是一项挑战,因为识别静态图像只需要对一张图片的静态特征识别,而行为识别必须对一段视频的每一帧的运动进行识别,因此,就难度而言,行为识别的难度高得多,传统的识别算法过于依赖特定的数据集,这种人工设计的特征与理论不符,所以这种方式的算法并不完善。近年来出现的深度学习算法舍弃了依靠人工精心设计特征的方法,通过构建深度神经网络来自主学习特征[1]。所以,近年来研究人员也把CNN应用到行为识别上来,并且已经取得不菲的成果。
手势是人机交互的方式之一,通过这种方式可以实现人与机器的沟通[2]。目前引用最多的几种识别方法是基于人工神经网络的手势识别,基于隐马尔科夫模型的手势识别,基于几何特征的手势识别,虽然这几种方式出现的较早,但是,其缺点也是明显的,第一种对于动态手势的识别是不理想的,第二种训练的速度很慢,第三种识别率不高,这就需要寻找新的方式来进行识别。CNN的出现给解决这些问题带来了希望,并且已经有研究表明,利用CNN模型可以处理许多问题,比如,训练方法复杂,训练参数多,耗费时间久等问题。
2、基于卷积神经网络的人脸检测[3]
当今,人脸检测具有很重要的应用,例如在国家安全,军事安全领域,为了保证国家的安全,必须区别非正常工作人员的身份,这就使用到了人脸的识别与检测。同样的在驾校以及驾驶考试上,为了防止学员作弊,代考等等事件的发生,也可以用人脸识别。
现有的自动人脸识别技术只能应用于固定卡口的正面人脸识别,在复杂的动态环境下识别率很低[3]。传统的人脸识别技术得到的线性人脸特征抗干扰能力较差,特征不明显。虽然之后进行过改进,但是实际的效果还是不理想。相对于传统方式的人脸检测,卷积神经网络可以直接作用在输入的样本上,从而省略传统方式的建模,参数估计以及检测和模型重建过程。利用卷积神经网络的深度模型可以提取人脸的特征,这种提取是非线性的提取,所以这种模型有更高的抽象和表述能力[3]。
3、文字识别系统[4,5,6]
文献[4]对多字体的字符进行识别,文献[5]研究的是随机弹性形变的相似手写体汉字识别,文献[6]基于多重卷积神经网络对大规模联机手写文字识别。虽然都是对字符手写体的汉字等进行识别,但是,所需要达到的要求是不一样的,如果用传统的方式来,所需要的工作量是很大的,同时,最后的结果也不一定能够达到预期的目标。因此,寻找新的方式是很有必要的。
在经典的模式识别中,首先要提取特征,然后进行相关性分析,找出最能代表字符的特征。但是,由于人的主观意识以及特征分类的不同,这种方式会影响最后的分类性能,而卷积神经网络能够很好的进行识别。
与其他方式相比,CNN可以保存邻域的联系和空间的局部特点,和常见的全连接深度结构相比,CNN处理实际尺寸的高维图像也毫无难度,这是因为CNN是基于共享卷积核结构的。在OCR的领域中,CNN的优势是绝大多数模型难以抗衡的。
1.3 论文章节安排
在第一章主要介绍了课题:CNN的应用、背景、研究现状和未来的发展方向,以及手写体识别的应用。
在第二章介绍了算法运行所需要安装的系统,以及运行的环境,并详细介绍了安装系统和搭建环境的教程。
在第三章中对代码中每一个部分进行分析,对CNN模型参数进行分析。
在第四章中介绍了代码,并进行了实验。
最后进行了总结,并列举自己遇到的问题,以及还没解决的问题,未来的研究打算。
第二章 开发技术
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2132.html