印刷体表格识别技术的研究(源码)

摘要:在日常的商业活动中,我们要处理大量的表格文档信息,比如表格信息的录入工作等,所以人们想找一种方法可以让电脑自动识别表格信息。表格信息的提取关键就是表格的检测与提取,本文在文档识别的基础上对表格的检测与提取以及字符识别做了一些研究。本文先介绍了图像预处理的各种操作,如图像二值化、灰度化、倾斜矫正、表格区域定位等,然后又介绍了表格线的提取与细化,接下来介绍了表格线的重绘以及字符识别的方法和重填的方法,最后总结了本文的内容并且对以后的工作做了展望。
目录
摘要 2
关键词 2
Abstract 2
引言
1.选题背景 2
1.1问题的提出 2
1.2国内外研究状况 3
1.3研究的内容及路线 3
1.4本文的内容安排 4
2.图像预处理 5
2.1图像灰度化 5
2.2图像二值化 5
2.3图像的倾斜矫正 5
2.3.1图像倾斜角的计算 5
2.3.2图像旋转 5
2.4表格区域定位 6
2.5本章小结 6
3.表格的检测与提取 6
3.1表格线的检测 6
3.2表格线的提取 7
3.3表格线细化 7
3.4表格线矫正 7
3.5表格重绘 8
3.6表格斜线处理 8
3.7本章小结 11
4.字符识别与字符重填 11
4.1字符识别方法介绍 11
4.1.1 结构模式识别 11
4.1.2统计模式识别 11
4.1.3统计识别与结构识别的结合 11
4.1.4本文采用的模式匹配识别 12
4.2字符图像分割 12
4.3字符重填 12
4.4 本章小结 12
5.总结 13
5.1存在问题 13
5.2未来的研究工作 14
致谢 14
参考文献 14
印刷体表格识别技术的研究
Research
 *好棒文|www.hbsrm.com +Q: ¥3^5`1^9`1^6^0`7^2$ 
on the Recognition Technology for Printed forms
Student majoring in computer science and technology ZHANG Xingbang
Tutor WU Yanlian
Abstract:In daily business activities,we need to deal with lots of form document information, such as form document information input etc. So people are trying to find a method of allowing the computer to recognize the form information automatically. The key of extracting form information is the detection and extraction of forms.This paper did some research on the detection and extraction of form information as well as character recognition.First,this paper introduces various image preprocessing operations,such as image binary, gray processing, tilt correction, table area positioning etc. Then the extraction and refinement of form lines are introduced, following by introduction of the redrawing of form lines and the approach of character recognition and refilling. At the end, a summary and?the future research prospect are presented.
Key words: Image preprocessing; Formray detector; Form redraw; Character Recognition
现在我们处在一个信息爆炸的时代,各种信息充斥在我们工作生活的方方面面,表格作为信息存储的集中形式更是人们获取信息的重要途径,但是正是因为表格信息的集中性导致表格信息的录入显得十分繁琐,本文旨在通过实验确定一种可以有效识别表格文档的方法。
选题背景
如今社会的工作最注重效率,但是表格信息的人工处理不仅费时费力而且效率低下,所以人们需要一种自动识别表格信息的技术来代替人工处理表格信息。
1.1问题的提出
在现代社会中,随着科学技术的不断发展,各种载体各种样式的信息充斥在我们生活的各方面,信息的获取已经是我们日常生活不可缺少的部分。信息化是我国社会主义四个现代化建设中的一个重要方面,而随着计算机的发展,用计算机处理各种信息成为了我们处理信息的一个重要手段,然而有很多的信息为了方便存储或者别的原因依然存储在纸质文档上面,要想将这些纸质文档上的信息用计算机进行处理就必须先将这些纸质文档上的信息转换为数字化信息。
纸质文档转换为电子文档可以通过拍照或者扫描的方法,但是无论是拍照还是扫描,目的都是将纸质文档转换为图像存储到计算机中,然后利用文字识别技术,将图像中的文字识别出来转换为计算机可以直接处理的信息存储起来。OCR(光学字符识别)技术是通过扫描仪等光学输入方式将各种图书、期刊、文献、档案等纸质文档转化成电子图像,并运用光学字符识别(OCR)技术分割目标图像中的待处理信息,并对其进行相应的识别[1] [2]。
在纸质文档中表格文档是必不可少的,作为信息高度集中的存储形式,表格在信息的存储与处理方面有着独特的优势,它的形式简单规范,可以让读者准确明白其表达的含义或者一些数据之间的的关系。在我们的学习工作中表格都是一种比较常用且有效地信息存储形式,利用表格的基本特点我们能够准确表达或者分析出表格中的数据信息。由于数字图像处理和模式识别[3]的发展,人们对计算机图像的处理速度和运作成本消耗上产生了更高的要求。随着科学技术的进步和发展,表格文档被大量使用,于是表格文档信息的处理也就变得越来越困难,随着这些任务变得越来越繁重且鉴于计算机处理信息的方便快捷,人们迫切需要一种软件系统可以将表格文档中的信息识别并转存到计算机中,所以本文旨在通过实验找到一种可以对印刷体表格文档进行识别的方法。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2274.html

好棒文