印刷体英文字符识别系统

印刷体英文字符识别系统[20191214194154]
本人签名: 日期:摘要
图像中的印刷体英文字符识别是模式识别的一个重要研究方向和组成部分。印刷体英文字符识别系统是OCR(Optical Character Recognition)中应用最成功的研究方向之一。一个有效的、可靠的、快速的英文字符识别系统既可以作为一个软件单独使用,同样也可以作为许多OCR系统的组成部分。随着科学技术、计算机网络的不断发展,信息资源不断膨胀,涉及英文字符识别的领域不断增加。例如,英文字符识别已在车牌号码识别、条形码识别、元器件型号检测、邮政信函自动分拣等众多领域中得到广泛应用。它可以把图片上不可以编辑的字符识别出来,具有非常重要的商业用途。针对一些pdf文档都采用加密设置不便于读者借鉴引用的现象。本文设计一种专门用于识别pdf格式的英文论文标题的系统。
本文研究重点为印刷体英文识别技术。以52个大小写英文字母为研究对象,识别内容为印刷体英文论文标题共120篇。其中100篇标题字体与模板库中的模板字符字体相同,为Times new Roman,小四号字体。另外20篇字体与模板字符不同。主要工作包括:印刷体英文字符识别的六层模型(图像获取、图像预处理、图像二值化、字符切分——连通域分割法、字符归一化、模板匹配的识别方法)。具体方法如下:图像获取采用直接导入本地图像的方法;二值化选用OTSU算法;选用中值滤波法去除干扰噪声;图像的分割方法为连通域分割算法;采用线性归一化法对字符进行归一化;通过模板匹配的方法进行字符识别,具体匹配方法为归一化相关匹配法。
本文成功实现了以上功能。最终在对与模板字符字体相同的100篇论文标题的识别中取得良好的识别效果,准确率较高。在对另外20篇与模板字体不同的论文标题的识别中取得的效果一般。
 查看完整论文请+Q: 351916072 
关键字:关键字印刷体英文字母;OTSU算法;连通域分割;归一化;字符识别;模板匹配;最大匹配值
Keywords: Printed English characters; OTSU algorithm; connected domain segmentation; normalization; character recognition; template matching; maximum matching value目录
第1章 绪论 1
1.1课题背景 1
1.2字符识别发展历史及研究现状 2
1.3主要研究内容 3
1.4论文结构及章节安排 4
第2章 字符特征提取与分类器设计 5
2.1特征提取与选择 5
2.1.1特征提取的方法 5
2.1.2字符识别中特征提取的方法 7
2.2常用分类器介绍 8
2.2.1统计决策分类器 8
2.2.2句法结构分类器 9
2.2.3神经网络分类器 9
第3章 字符图像预处理与分割 10
3.1图像的获取 10
3.2图像二值化 10
3.3图像的噪声与去噪 13
3.4字符区域的定位与分割 14
3.4.1投影法 15
3.4.2连通域分割 17
3.5字符图像的归一化 21
第4章 基于模板匹配的识别方法 24
4.1模板匹配法原理? 24
4.2模板匹配基本算法 24
4.3几种常见的模板匹配方法 27
第5章 实验结果与分析 30
5.1系统设计 30
5.2实验结果与分析 31
5.3小结 34
第6章 总结与展望 35
6.1工作总结 35
6.2工作展望 35
参考文献 36
附录 38
致谢..........................................................................................................47第1章 绪论
1.1课题背景
模式识别通过计算机 用数学 技术方法来研究模式的解释判断和自动处理。它不仅是信息科学和人工智能的重要组成部分也是人工智能的基础技术。
模式识别在20世纪50年代末才开始进入快速发展时期,起步比较晚。在20世纪60年代初,模式识别迅速发展,成为一门新学科。模式识别的目的是解决计算机与外部环境直接通信这一重要问题。具体工作是对声音、文字、图像、和景物等模式信息进行处理与识别。模式识别中的字符识别是一个得到广泛使用的模式识别应用。在今天,大量的有用信息是记录在纸上或者印刷在各种物品,比如车牌号码,印刷体文件,产品编号等。有时,需要将这些信息输入计算机来处理,这是一件浪费时间和消耗精力的工作,如果能够通过电脑上的摄像头来获取这些信息,那么我们将会减少很多麻烦。解决这个问题的关键就是字符识别技术,这便推动了印刷体识别技术的发展。
随着计算机技术的不断发展,各种各样的自动化设备出现在人们的生活中,造福于人类。这些模式识别技术的应用为我们的生活和工作提供了极大的方便,使我们与这些先进设备、先进技术更加密不可分。模式识别应用广泛,目前已经成功应用于图像分析与处理、语音识别、声音分类、卫星航空图片解释、字符识别、天气预报、通信、工业产品检测、计算机辅助诊断、生物测定学、生物信息学、数据挖掘 、考古等许多重要领域。
按照学科进行分类,字符识别属于模式识别的范畴,它包含的技术有模式识别,人工智能,机器学习,数字图像处理等。字符识别不仅在基础理论研究上具有很大的研究价值,在实际应用研究中的研究价值也是不可估量[1]。
印刷体英文字符识别,是模式识别研究的重要方向,是文字识别领域的一个比较古老的分支,同样也是文字识别领域的研究热点。
1.2字符识别发展历史及研究现状
陶舍克字符识别的创始人。在1929年,他利用光学模板匹配识别开创了用机器识别文字符号的先河。
欧美国家以将众多材料输入计算机进行信息处理为研究目的,从50年代起,开始对OCR进行研究。为了解决将打印好的资料转换为计算机可识别的语言的问题,美国从事密码分析及处理工作的Shepard成功的发明了具备此功能的一台机器。随后,Shepard成立了公司。世界上第一个应用于商业的OCR系统便应运而生。由于识别不仅依靠手写样本得到的信息,而且对周围设备环境有很大依赖性,使得该项技术的应用领域较少。它只在银行支票识别邮政地址识别等少数领域得到比较有效的运用。
60年代至70年代,面对字符识别的广阔市场需求以及它能够收获的巨大的经济效益,世界各国都相继开始了对字符识别技术的研究。从研究早期的数字识别系统发展到英文字符识别系统,再到汉字等各种文字及符号,甚至对不同文字的全识别。经过各国从事字符识别研究的科学家及工作人员的共同努力,OCR识别识别精度不断提高,字符识别在人们的日常生活学习中也得到了广泛的应用[4-5]。
对OCR技术的研究和发展,中国的起步比较晚。对数字、英文字母及符号的研究和识别是从70年代才开始的,而到了70年代末才开始研究汉字识别技术。然而,经过我国科学家和字符识别工作者的不断地努力,我们在字符识别方向已经取得了丰硕的成果,很多研究单位都推出了自己的OCR产品[6-9]。
现在,印刷体英文字符识别已在社会各个领域中得到广泛应用,如印刷、版面分析,表格、文件的阅读、办公自动化文本处理等。文本的自动识别技术不仅提高了识别准确率和工作效率,还大大节省了人力资源。
1.3主要研究内容
本文研究的系统是印刷体英文字符识别系统。英文字符来自于英文论文中,识别目标为论文标题,标题包括大小写英文字符。论文一共120篇,其中与模板字体相同的论文标题有100篇,与模板字体不同的为20篇。模板字体为Times New Roman,小四号字体。过程如下:首先对英文字符所在区域进行提取;接着对图像进行预处理,包括图像的二值化处理(OTSU算法)、中值滤波去噪、等相关操作;然后实现目标区域的定位,定位后通过连通域分割对单个字符进行分割,再对分割出来的字符进行归一化操作;最后将归一化后的单个英文字符与模板库中的预先设置的52个英文字符模板进行匹配,匹配方法采用归一化相关匹配法,比较匹配值,最终显示匹配值最高的模板对应的英文字符作为识别结果,同时将识别结果及最佳匹配值显示在输出窗口。具体操作步骤及算法见下文详细分析。操作流程图如图1-1所示。
图1-1操作流程图
由图可见,印刷体英文字符识别过程中主要包括下面几项技术:
(1)读取并显示印刷体英文字符图片。
(2)图像的预处理,包括图像的二值化,区分目标与背景,滤除干扰噪声得到尽量去除各种干扰的字符图像;
(3)使用连通域分割方法对单个字符进行分割,奖分割出来的字符进行归一化处理;
(4)用归一化模板匹配法对单个字符和模板库中模板进行一一对比,识别出英文字符并计算出最佳匹配值。
(5)对比观察与模板字体相同的标题识别效果和与模板字体不同的经过模板匹配后识别结果的变化,改进算法,使得识别结果更为准确。
1.4论文结构及章节安排
本文主要内容是介绍整个印刷体英文字符识别系统的设计方法及实现过程。
论文第1章介绍了课题研究的背景;关于模式识别和字符识别的相关理论基础知识;字符识别系统的发展历程及应用;本文的主要研究内容和结构。
论文第2章简单介绍介绍特征提取的一些方法及优缺点比较。以及印刷体英文字符识别中分类器的设计。
论文第3章介绍英文字符识别系统中运用到的图像获取、预处理及字符图像分割,归一化。其中,预处理主要包括图像读取与显示、字符图像的二值化、中值滤波滤除干扰噪声等。着重介绍字符的分割方法——通域分割法。
论文第4章着重介绍本系统采取的归一化相关模板匹配法以及匹配值的计算方法。
论文第5章主要对印刷体英文字符识别系统实现的效果进行阐述与分析。对比与模板字体相同的标题以及与模板字体不同字体标题的识别效果间的差异。
论文第6章为实验心得体会与展望。
第2章 字符特征提取与分类器设计
本章将对字符识别系统中常用的方法设计方法——字符特征提取与分类器设计进行简单介绍,这种做法将与本文采用的模板识别方法进行简单对比。因为本文识别对象为英文论文标题,字体类型具有普遍相同这一特点,决定采用模板匹配方法进行识别,方法简单易行,而且识别率高。模板匹配的方法不需要特征提取这一步骤,字符图像直接当作特征来与模板库中的模板进行对比,与字符图像最相似的模板字符即作为识别结果,所以严格来说本文没有用到字符特征提取这一步骤,因此下面将只特征提取及分类器方法进行简单介绍,对其算法不做深究[2]。
首先分析字符识别系统中提取特征的一些常用方法[4],分析他们各自的优缺点,然后介绍了模式识别理论中有关特征提取和分类器设计的基本原理。并简要分析了这些原理和方法在OCR系统中的运用和取得的效果。综合本文情况选取最适合本文的方法。
分类器设计[4]是字符识别系统中关键问题之一,分类器性能好坏将直接影响字符识别地速度和准确性。高性能的分类器有助于提高系统的整体性能,保证较高的识别率。一些常用的分类器有模板匹配法、统计决策分类器、句法结构分类器以及神经网络分类器。
2.1特征提取与选择
2.1.1特征提取的方法
特征提取[5-6]的主要意图是从文本图像数据中提取出用于区分不同类别的本质特征。据统计分析得出,具备下列条件的提取方法为优秀提取方法:特征之间相互独立,特征向量的维数要尽量小,类内距离少且类间距离大。印刷体字符识别有许多种具体的方法[4],无论采用哪一种方法,特征的选择[3]与提取以及相应的分类算法都是非常关键的步骤。与模式识别的研究方法相对应,特征可以分为统计特征和结构特征,其中统计特征又分为局部特征和全局特征。通过对字符的笔划进行分析从而得到结构特征[4]。下面将对几类特征提取的方法进行简单地介绍和比较。
(1)基于局部特征的特征提取
局部特征,计算任何一种特征都是局限于字符图像的一个局部的区域范围之内。在小字符集的识别中它可以取得比较好的效果。局部特征可以分为像素特征、网格特征、采用多边形逼近算法提取的特征。像素特征直接采用字符图像中的各像素点的值作为特征向量;而网格特征则利用各种其它的局部特征来代替一个或一组像素点的值,从而构成特征向量并根据特征向量进行匹配,也叫特征匹配法,是目前字符识别的主流方法[4]。采用多边形逼近算法提取特征时,先用直线段去逼近字符的外围轮廓;再用逼近后产生的一个直线段序列来表示原始字符;识别方法为松弛匹配法。
(2)基于全局特征的特征提取
采用全局变换来获取输入图像的全局特征,再根据变换系统的有序子集来构成特征向量[5]。它也没有利用字符内在的结构信息,而是将输入图像视为一个整体从而在更为抽象的层次上进行处理。它具有对字符的局部畸变不敏感,鲁棒性较好等优势;然而却可能会忽略一些重要的局部信息,所以,不对于区分相似字符不适用[5]。全局变换主要有:Hadamad变换、Hough变换、二维Fourie变换、以及Rapid变换[4]。
(3)基于结构特征的特征提取
通过结构特征对字符进行结构分析来达到识别目的是一种非常直截了当的方法。因为笔段构成笔划,笔划组成字符,识别时可以采用自底向上分析的方法,由像素得到笔段,笔段组成笔划,最后笔划组成完整的字符[5]。逐级分析字符图像的结构,根据各元素的属性、数量及它们之间的相互关系,便能判定识别字符。总而言之,事物的不同方面由不同性质的特征描述。结构特征与统计特征有着它们各自的优劣之处。统计特征具有良好的稳定性,对噪声不敏感,然而对图像细节上的细微差异不敏感。当待识别字符形状比较相似时易发生错误。它可使用的分类器比较多,可以较方便设计复合多分类器识别系统结构特征,一般适用句法类的分类器,但对于任意书写的手写体汉字,总有一部分待识字符无法分类,据识率较高[6]。结构特征的优点是对细节变化比较敏感,能较好的分辨出结构上微小的差异,缺点是对噪声比较敏感,对噪声较大的图像识别率不高。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/2513.html

好棒文