四角号码检字法”实现单体印刷体文字识别(附件)

摘要:基于“四角号码检字法”的文字识别技术通过对文字编码来实现文字的识别和录入,相比于人工识别及录入,其成本低,速度快,更有利于信息的输入与输出。本文首先对图像进行预处理,而后利用区域生长法实现笔画的初步分割,再基于模板匹配法对笔画进行识别。之后将有连粘的笔画群进行进一步的细化分割,再利用模板匹配对笔画进行识别。最后将识别结果与文字库中对应的文字进行匹配显示。最终达到基于“四角号码检字法”实现对文档中单体印刷体文字的识别的效果。
目录
摘要 1
关键词 1
Abstract 1
Keywords 1
引用 1
1 选题背景 1
1.1 研究的意义 1
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 2
1.3 研究的目的 2
2 开发平台及应用技术 3
2.1 Matlab系统简介 3
2.2 四角号码简介 3
3 系统简介 4
4 图像的预处理 6
4.1 灰度化 6
4.2 二值化 7
5 笔画分离 7
5.1 文字结构分析 7
5.2 区域生长法 8
6 图像再处理 10
6.1 字符细化 10
6.2 去除干扰笔段 10
6.2.1 去除细化枝杈 10
6.2.2 去除错误笔段 12
7 字符识别 12
7.1 笔画初步识别 12
7.2 笔画二次识别? 13
8 编码识别 14
9 实验结果与分析 14
致谢 20
参考文献 20
基于“四角号码检字法”实现单体印刷体文字识别
引言
将纸质化文档中的信息录入是一件简单重复的工作,不光要耗费大量的人工成本,而且速度慢,机械,枯燥。文字识别的实现在很大程度上可以解放部分劳动力,而且成本低,速度快,更有利于信息的输入与输出,更可以为信息化中国助力。本文研究如何实现基于“
 *好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2 
四角号码检字法”对文字的识别,将抽象的检字法代码化,通过对笔画的识别匹配来确定文字的方法。
1选题背景
1.1 研究的意义
现如今已经高速迈进电子时代,随着计算机、互联网、智能手机等的迅猛发展,人们选择获取信息的方式已在悄然改变,就像纸质图书纸远不及电子图书更方便阅读一样,电子化信息以其存储空间小、携带方便、便于修改管理等优势逐步取代纸质化信息模式。并且,在这个信息急速膨胀的时代,信息量的巨大程度难以想象,所以手动输入信息已经不能满足当今时代的需求,如果计算机可以通过对纸质文档的扫描实现对文档中文字的识别,就可以代替人工告诉完成部分信息的录入和编辑。
近年来我国对印刷体汉字的识别、手写体汉字的识别、多体汉字的识别研究都有十分显著的成果,部分识别系统已然十分成熟,有些识别率已达99%甚至更高。基于“四 角号码检字法”实现的汉字识别,将不仅仅完成汉字识别这一目的,而是利用“四角号码检字法”这一独特的汉字识别方法,将汉字数字化,转化为一个五位(一位附码)编码,在实现识别的同时可以将汉字再处理转化为条形码或二维码等形式,实现进一步的压缩。四角号码查字法有着简单、容易掌握、不受部首、笔画的限制、准确快速等优点,若能用计算机实现识别,可以更快速的实现对汉字的辨认。另外,用四角号码识别后的汉字都携带一个十进制号码,若将该十进制号码直接转换为二进制,再进一步转换为相应的二维码,可以最快速的实现对数据的压缩[1]。
中国正向全面进入信息化时代而努力,信息爆炸的年代,越来越多的信息需要压缩,基于“四角号码检字法”实现的文字识别无疑是将识别压缩相结合,助力中国,推进中国的信息化进程,为中文信息提速。东西方文化不同,汉字与英文的差异就更加巨大。对英文的识别方法并不适合汉字的识别,因此我们有必要对汉字识别方法进行深入研究。
1.2国内外研究状况
1.2.1国外研究状况
印刷体汉字的识别最早可以追溯到60年代,IBM公司就已经利用简单的模板匹配法识别了1000个印刷体汉字。70年代以来,日本学者做了许多工作,其中有代表性的系统有1977年东芝综合研究所研制的可以识别2000个汉字的单体印刷汉字识别系统;80年代初期,日本武藏野电气研究所研制的可以识别2300个多体汉字的印刷体汉字识别系统,代表了当时汉字识别的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷汉字识别系统。这些系统在方法上,大都采用基于K一L数字变换的匹配方案,使用了大量专用硬件,其设备有的相当于小型机甚至大型机,价格极其昂贵,没有得到广泛应用。
1.2.2国内研究状况
同国外相比,我国的印刷体汉字识别研究起步较晚。但由于我国政府从80年代开始对汉字自动识别输入的研究给予了充分的重视和支持,经过科研人员十多年的辛勤努力,印刷体汉字识别技术的发展和应用有了长足进步:从简单的单体识别发展到多种字体混排的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语识别。各个系统可以支持简、繁体汉字的识别,解决了多体多字号混排文本的识别问题,对于简单的版面可以进行有效的定量分析,同时汉字识别率已达到了99%以上。
综上所述,国内对汉字识别技术都已达到成熟阶段,国外起步早但由于与本土文化的差异性,汉字识别并没有很好地投入研究和发展。现阶段出现的汉字识别方法主要分为结构模式识别、统计模式识别、人工神经网络三种方法。其中结构模式识别方法主要是早期文字识别的主要方法,随着统计理论的发展,统计模式识别方法逐渐成为文字识别主要的研究方法。近年来,人工神经网络发展迅猛,应用到越来越多的行业中,它模拟人脑的活动方式,更符合人们的思维习惯。但它的建模比较复杂,而且运算量大。在印刷体文字识别中很少采用,在手写体识别中有一定的应用。还未有基于“四角号码检字法”的汉字识别方式。
1.3研究的目的
随着计算机的发展,人们选择获取信息的方式已在悄然改变,电子化信息以其存储空间小、携带方便、便于修改管理等优势逐步取代纸质化信息模式。并且,在这个信息急速膨胀的时代,信息量的巨大程度难以想象,所以手动输入信息已经不能满足当今时代的需求,通过计算机对纸质文档的扫描实现对文档中文字的识别,代替人工告诉完成部分信息的录入和编辑。本设计研究的目的就是实现纸质汉字从预处理到基于“四角号码检字法”实现识别的流程的简单模拟。将黑体印刷体纸质文档经过灰度化、二值化等预处理转化为数字化文档,分割出单个文字并基于“四角号码检字法”实现对文档中文 字的分割和识别。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/718.html

好棒文