低质量印刷体字符分割与识别技术(附件)【字数:15212】

摘 要摘 要近年来,印刷体字符识别技术日益成熟,在现代生活得到了广泛使用,但是低质量印刷体字符识别技术的发展却仍存在很多难点。车牌图像字符是典型的印刷体字符,本文以车牌图像字符为研究对象,分析了低质量印刷体字符在识别过程中可能遇到的问题,设计了一个低质量印刷体字符的识别系统。首先,本文对车牌图像字符进行预处理,讨论并研究了基于加权平均的灰度化算法、基于Roberts算子/Sobel算子的边缘检测等方法,重点介绍了基于边缘检测和数学形态学处理的车牌定位算法。其次,由于基本的字符分割算法对低质量印刷体字符的分割能力有限,采用阈值法对图像进行二值化,提出了一种改进的投影分割方法对字符进行分割,然后基于微结构法和像素法提取字符特征。最后通过基于BP神经网络的字符分类器,完成了印体字符的识别。该系统对车牌图像进行识别的实验结果表明,该系统的字符分割正确率可达93%,分类器识别的正确率可达90%。关键词低质量印刷体;投影分割;BP神经网络;字符识别
目 录
第一章 绪论 1
1.1研究背景与研究意义 1
1.1.1研究背景 1
1.1.2 研究意义 2
1.2国内外研究现状 2
1.2.1 OCR技术的发展历史 2
1.2.2 OCR相关技术的研究现状 3
1.2.3 OCR技术的研究难点 4
1.3本论文的主要研究内容 5
1.4本论文的组织结构 6
第二章 图像的预处理技术 8
2.1原始图像预处理技术 8
2.1.1灰度化 8
2.1.2图像增强 8
2.1.3滤波环节 9
2.1.4边缘检测 9
2.1.5图像区域定位 9
2.1.6 倾斜校正 10
2.2本文设计的预处理方法 10
2.2.1基于加权平均值的灰度化算法 10
2.2.2基于线性灰度变换的图像增强算法 11
2.2.3两种滤波环节的设计 11
2.2.4 基于Roberts算子和Sobel算子的边缘检测方法 12
2.2.5车牌图像区域定位算法 13 style="display:inline-block;width:630px;height:85px" data-ad-client="ca-pub-6529562764548102" data-ad-slot="6284556726"> (adsbygoogle = window.adsbygoogle || []).push({ });

 *好棒文|www.hbsrm.com +Q: @351916072@ 

2.2.6 车牌图像的倾斜校正 15
第三章 字符分割与特征提取 17
3.1字符分割的二值化处理前提 17
3.2字符分割方法 17
3.3字符归一化 18
3.4 特征提取 18
3.5本文设计的字符分割和特征提取 19
3.5.1 阈值法二值化处理 19
3.5.2 改进的投影分割方法 20
3.5.3 基于邻近插值算法的字符归一化 21
3.5.4 微结构法和逐像素法特征提取 21
第四章 神经网络字符识别分类器设计 23
4.1 字符识别现状 23
4.2 神经网络概述 23
4.2.1 神经网络发展与模式识别 23
4.2.2 神经网络模型 24
4.3 BP神经网络算法 25
4.4 BP神经网络车牌字符图像的识别 31
第五章 神经网络字符识别系统的实现与分析 32
5.1 预处理模块 32
5.1.1 图像灰度化 32
5.1.2中值滤波 32
5.1.3边缘检测 33
5.1.4图像形态学处理 33
5.2车牌定位 34
5.3倾斜校正 34
5.4 图像二值化 34
5.5字符切割 35
5.6字符识别 35
5.6.1 字符归一化与特征提取 35
5.6.2 BP神经网络字符识别分类器的设计 36
5.6.3字符识别 36
第六章 总结与展望 38
6.1 总结 38
6.2 难点 38
6.3 展望 39
致 谢 40
参考文献 41
第一章 绪论
1.1研究背景与研究意义
1.1.1研究背景
在信息日益数字化的当今社会,计算机在人们的日常生活、工业应用、科学研究等方面起了越来越重要的作用,更多人开始用计算机来处理和存储数据。以往人们人工操作将数据输入电脑,这种行为不仅浪费时间,且容易出错,影响数据的正确率和工作效率,随着计算机处理信息能力和水平的不断提高,越来越多的领域需要将大量的手写体和印刷体信息输入计算机,来分析和处理相关数据。
光学字符识别(OCR,Optical Character Recognition),指的是将书本、报刊、手稿等印刷品或手写体的扫描体图文信息转化为可以被计算机识别和处理的文本信息[1]。经过了近百年的发展,OCR在模式识别领域占有着不可替代的位置,并对图像处理、计算机视觉、形态处理等的发展做出了伟大贡献。它有效地缓解了低速的输入与高速的信息处理之间的矛盾,提高了整个系统的工作效率,同时也提高了各个领域的工作效益。
OCR技术通常由手写体OCR识别技术和印刷体OCR识别技术两种组成,而前者又包括联机识别技术与脱机识别技术。一般地,手写体字符识别的难度比印刷体字符识别的难度大,但其实用性和应用范围远远不及印刷体字符识别,如人民币冠字号、支票打印字符、银行票据和车牌字符等识别都需要用到印刷体字符识别技术[2]。图11为OCR系统的分类。

图11 OCR系统的分类
在实际应用领域,造成字符质量低下的主要原因有:采集设备分辨率较低、设备晃动、拍照角度倾斜或光照不均匀;被采集对象背景复杂、自身存在损坏、排版错乱;被采集对象运动而造成模糊,等等。
日常生活中会产生许多低质量的印刷体,如办公室中的传真与复印造成的文本材料的质量低下,图书资料上传过程中所产生的低质量文本,财务税务的发票、支票出于防伪目的使得背景过于复杂等,这些低质量印刷体会对人们的工作、生活产生影响,我们需要对其处理,将它转换为可以利用的信息。
1.1.2 研究意义
大量研究的实验结果表明,字符识别技术对高质量的印刷体单字的识别率可到达95%,但针对低质量印刷体字符的识别效果并不是很好,其原因大多是字符的分割不准确和字符识别错误。为了让字符识别技术更好地识别低质量的印刷体,使得字符识别技术更好地为人类的工作、生活服务,从发展和应用角度来看,低质量印刷体字符识别技术的研究意义重大,其意义主要表现在以下两个方面:

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/zdh/1515.html

好棒文