身份证信息的图像识别算法研究
摘 要近年来,随着计算机技术的长足发展,图像处理技术的广度和深度不断得到突破,直接促进了OCR(Optical Character Recognition,光学字符识别)技术的诞生。然而,在该技术的实际应用中,高效率的字符识别往往依赖于良好的识别环境与有效的预处理技术,否则其广泛应用会受到诸多阻碍。本文介绍了一个由C++编写的,借助于计算机视觉库Open CV与光学字符识别引擎TESSERACT实现了身份证图像信息识别的功能,并且阐述了在预处理与字符分割过程中所使用的算法。 鉴于身份证的字符识别背景复杂,干扰强烈,信息排布统一并且有规律,而且在拍摄过程中会有不可避免的几何失真。鉴于以上情况,本文将设计分为预处理,字符分割以及识别三大步骤进行处理。在实际的编译与运行中,基于现有算法的诸多改进被证明是现实可行的,并收到了良好的识别效果。
目 录
摘要 I
ABSTRACT II
目 录 III
第1章 绪论 1
1.1 字符识别技术 1
1.2 发展现状 1
1.3 问题提出 2
1.4 研究意义 3
1.5 本文所做工作 3
第2章 总体结构 5
2.1特征分析 5
2.2软件结构 6
2.2.1编译环境 6
2.2.2图像预处理 7
2.2.3图像分割 8
2.2.4字符识别 10
2.3总体设计 10
第3章 图像预处理 13
3.1关于OPEN CV 13
3.2灰度转化 14
3.3二值化与锐化 15
3.4灰度直方图 19
字符分割 21
4.1行分割 21
4.2列分割 22
第5章 字符识别 25
5.1归一化处理 25
5.2字符特征提取 26
5.3关于TESSERACT 28
5.4 TESSERACT在本系统中的应用 29
第6章 总结与展望 31
6.1总结 31
6.2技
*好棒文|www.hbsrm.com +Q: ¥351916072¥
术展望 31
致谢 33
参考文献 34
附录 文献翻译 36
绪论
1.1字符识别技术
光学字符识别技术,是指采用光学方式将文档资料转换为黑白点阵的原始图像文件,再通过识别软件将图像文字转换为文本格式的一项技术。由于光学识别技术是一项争取识别率的技术,因此如何从辅助方法入手提高识别率是OCR技术最重要的课题之一。
1929年,德国科学家Tausheck首先提出了光学字符识别的概念并完成了相关专利的申请,若干年后的美国科学家也提出了类似的想法。然而直到几十年后,这种关于光学识别字符的想法才由计算机的出现使之变为可能。世界各国于50年前相继开始了对于OCR技术的研究,但大多仅停留在基本识别方法与理论的层面上。
在OCR技术研究的初期,主要的识别对象仅仅是数字且直到70年代才有一批简单的产品面世,比如众所周知的邮政编码识别系统,它可以帮助邮政人员识别信函上的邮政编码以进行区域分信的作业,减少了人工劳动带来的低效率与高出错率等问题[1]。因此,直到今天邮政编码一直是世界各国所倡导的地址书写方式。
汉语作为世界上使用人数最多的语言在印刷产物方面有着极大的占有量。同时,汉字本身的数量极为庞大,且单字结构复杂多变,这是其他拼音语言所无法相提并论的。这种非字母化和非拼音化的语言特点使其对应的光学识别技术的难度无疑又上升了一个台阶。
1.2发展现状
对于汉语的OCR技术亦可追溯到60年代。IBM早在1966年就发表了第一篇关于印刷体汉字识别的论文,通过匹配法成功地识别了一千多个印刷体汉字。
在此之后,日本学者在此方面做了诸多的工作,比较有代表性的有东芝研究所在1977年研制的单体印刷汉字识别系统,能够实现2000汉字的识别能力;80年代的日本武藏野电气研究所研制的系统则可以识别2300个单体汉字,这是当时汉字识别的最高水平。
我国的光学识别研究起步较晚,从70年代才开始对简单字符比如数字、符号以及英文字符进行识别研究。然而,我国政府从80年代起就对于汉字字符的自动识别输入研究给予了充分的重视与支持,经过科学家们数十年的辛勤努力获得了极大的进步。目前在国内外,完整的汉字识别系统已有四五个,已经能够能识别常用的4000多个不同大小以及字号的印刷体汉字,而且识别率达到95~99%。此外,在难度更大的手写体汉字识别方面,相关的识别实用系统也有10多种,如中科院自动化所研制的汉王笔,台湾研制的蒙恬笔等。
目前,光学字符识别技术已经逐步进入了各行各业,在电子商务、电子政务、金融、民政以及工商等行业的应用尤为广泛,行业内对其与日俱增的依赖也促使着OCR技术的蓬勃发展。总之,我国印刷体汉字识别已进入实用阶段,其技术水平和当前世界最高水平并驾齐驱。
1.3问题提出
随着我国现代化建设的不多深入以及民政、警务的工作量的不断增加,如何快速有效地进行居民信息读取与处理就成了一个亟待解决的问题[1]。
图像识别作为数字图像处理的一个重要分支,应用非常广泛。本课题拟针对国家人口普查时进行的居民信息登记提供一种便捷的工具。
国家每次在人口普查时,都会安排大量的工作人员逐户上门核对居民信息,然后与公安的数据库再次比对。上门核对时的主要依据是每人手中的身份证,摘录到记录表后把身份证还给居民;工作人员回办公室后把记录表中的信息再输入电脑。
这种核对方式效率很低,而且极易出现错误;工作人员在记录时时间稍长一点还可能受到责怪。因此,有一个准确、便捷的记录工具将会有助于工作的开展。
居民身份证信息属于个人隐私,因此工作人员以外的人员不能轻易得到。公安系统有一种可以直接读身份证内芯片数据的机器,但是不会随便给人口普查的工作人员使用,因为那套系统比较昂贵,维护成本较高,不利于大规模投入使用。所以只能通过图片识别的方法读取数据。
身份证的大小、颜色、背景图案等都是固定的,可以作为图像的模版,并用作拍照时的图像定位;身份证的字体、字号、位置也都是固定的,不需要考虑矫正算法方面的问题,识别速度和成功率理论上应该很高。
1.4研究意义
身份证的光学字符信息识别对于公安部门的数据信息归档有着十分重要的作用。在以前,大多是将身份证扫描后以图像格式存储于数据库,再以人工的方式将证件中的个人信息进行识别并完成录入工作。由于信息量巨大,人工处理造成的速度慢、效率低的弊端就凸现出来。
近些年,随着OCR技术的迅速发展与应用,它对印刷体的识别能力日趋成熟并获得了广泛的应用。若能采用数字图像处理技术对拍照扫描后的身份证图像进行处理,再对字符串进行自动分割,然后对分割出的文字和数字进行识别。这将更加方便、准确、高效地处理信息。
目 录
摘要 I
ABSTRACT II
目 录 III
第1章 绪论 1
1.1 字符识别技术 1
1.2 发展现状 1
1.3 问题提出 2
1.4 研究意义 3
1.5 本文所做工作 3
第2章 总体结构 5
2.1特征分析 5
2.2软件结构 6
2.2.1编译环境 6
2.2.2图像预处理 7
2.2.3图像分割 8
2.2.4字符识别 10
2.3总体设计 10
第3章 图像预处理 13
3.1关于OPEN CV 13
3.2灰度转化 14
3.3二值化与锐化 15
3.4灰度直方图 19
字符分割 21
4.1行分割 21
4.2列分割 22
第5章 字符识别 25
5.1归一化处理 25
5.2字符特征提取 26
5.3关于TESSERACT 28
5.4 TESSERACT在本系统中的应用 29
第6章 总结与展望 31
6.1总结 31
6.2技
*好棒文|www.hbsrm.com +Q: ¥351916072¥
术展望 31
致谢 33
参考文献 34
附录 文献翻译 36
绪论
1.1字符识别技术
光学字符识别技术,是指采用光学方式将文档资料转换为黑白点阵的原始图像文件,再通过识别软件将图像文字转换为文本格式的一项技术。由于光学识别技术是一项争取识别率的技术,因此如何从辅助方法入手提高识别率是OCR技术最重要的课题之一。
1929年,德国科学家Tausheck首先提出了光学字符识别的概念并完成了相关专利的申请,若干年后的美国科学家也提出了类似的想法。然而直到几十年后,这种关于光学识别字符的想法才由计算机的出现使之变为可能。世界各国于50年前相继开始了对于OCR技术的研究,但大多仅停留在基本识别方法与理论的层面上。
在OCR技术研究的初期,主要的识别对象仅仅是数字且直到70年代才有一批简单的产品面世,比如众所周知的邮政编码识别系统,它可以帮助邮政人员识别信函上的邮政编码以进行区域分信的作业,减少了人工劳动带来的低效率与高出错率等问题[1]。因此,直到今天邮政编码一直是世界各国所倡导的地址书写方式。
汉语作为世界上使用人数最多的语言在印刷产物方面有着极大的占有量。同时,汉字本身的数量极为庞大,且单字结构复杂多变,这是其他拼音语言所无法相提并论的。这种非字母化和非拼音化的语言特点使其对应的光学识别技术的难度无疑又上升了一个台阶。
1.2发展现状
对于汉语的OCR技术亦可追溯到60年代。IBM早在1966年就发表了第一篇关于印刷体汉字识别的论文,通过匹配法成功地识别了一千多个印刷体汉字。
在此之后,日本学者在此方面做了诸多的工作,比较有代表性的有东芝研究所在1977年研制的单体印刷汉字识别系统,能够实现2000汉字的识别能力;80年代的日本武藏野电气研究所研制的系统则可以识别2300个单体汉字,这是当时汉字识别的最高水平。
我国的光学识别研究起步较晚,从70年代才开始对简单字符比如数字、符号以及英文字符进行识别研究。然而,我国政府从80年代起就对于汉字字符的自动识别输入研究给予了充分的重视与支持,经过科学家们数十年的辛勤努力获得了极大的进步。目前在国内外,完整的汉字识别系统已有四五个,已经能够能识别常用的4000多个不同大小以及字号的印刷体汉字,而且识别率达到95~99%。此外,在难度更大的手写体汉字识别方面,相关的识别实用系统也有10多种,如中科院自动化所研制的汉王笔,台湾研制的蒙恬笔等。
目前,光学字符识别技术已经逐步进入了各行各业,在电子商务、电子政务、金融、民政以及工商等行业的应用尤为广泛,行业内对其与日俱增的依赖也促使着OCR技术的蓬勃发展。总之,我国印刷体汉字识别已进入实用阶段,其技术水平和当前世界最高水平并驾齐驱。
1.3问题提出
随着我国现代化建设的不多深入以及民政、警务的工作量的不断增加,如何快速有效地进行居民信息读取与处理就成了一个亟待解决的问题[1]。
图像识别作为数字图像处理的一个重要分支,应用非常广泛。本课题拟针对国家人口普查时进行的居民信息登记提供一种便捷的工具。
国家每次在人口普查时,都会安排大量的工作人员逐户上门核对居民信息,然后与公安的数据库再次比对。上门核对时的主要依据是每人手中的身份证,摘录到记录表后把身份证还给居民;工作人员回办公室后把记录表中的信息再输入电脑。
这种核对方式效率很低,而且极易出现错误;工作人员在记录时时间稍长一点还可能受到责怪。因此,有一个准确、便捷的记录工具将会有助于工作的开展。
居民身份证信息属于个人隐私,因此工作人员以外的人员不能轻易得到。公安系统有一种可以直接读身份证内芯片数据的机器,但是不会随便给人口普查的工作人员使用,因为那套系统比较昂贵,维护成本较高,不利于大规模投入使用。所以只能通过图片识别的方法读取数据。
身份证的大小、颜色、背景图案等都是固定的,可以作为图像的模版,并用作拍照时的图像定位;身份证的字体、字号、位置也都是固定的,不需要考虑矫正算法方面的问题,识别速度和成功率理论上应该很高。
1.4研究意义
身份证的光学字符信息识别对于公安部门的数据信息归档有着十分重要的作用。在以前,大多是将身份证扫描后以图像格式存储于数据库,再以人工的方式将证件中的个人信息进行识别并完成录入工作。由于信息量巨大,人工处理造成的速度慢、效率低的弊端就凸现出来。
近些年,随着OCR技术的迅速发展与应用,它对印刷体的识别能力日趋成熟并获得了广泛的应用。若能采用数字图像处理技术对拍照扫描后的身份证图像进行处理,再对字符串进行自动分割,然后对分割出的文字和数字进行识别。这将更加方便、准确、高效地处理信息。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/zdh/2984.html