ocr技术在实验室资料管理中的应用【字数:10244】
摘 要现如今,各高校为了管理学生的实验进程,通常以实验报告手册的形式进行收发存储,多数实验报告保存在实验室用以日后的统计和检查,大量的实验报告为管理增加了难度。纸质实验报告的拍照存储成为解决上述问题的方法之一,本次课题便提出利用OCR技术对光学字符进行识别,这种识别技术可以自动识别学生在实验报告中手写的学号等信息,方便实验室管理人员对学生信息的录入。本文采用HALCON算子库对目标字符进行识别,其具体步骤是:对图像进行灰度化;中值滤波去噪的预处理;利用阈值分割技术对实验报告中的文字信息与背景信息进行分割,对分割后的区域进行裁剪后,使用连通域分割等技术排除干扰信息,以提取实验报告中的手写学号字符特征;利用多层神经网络(MLP)分类器进行机器学习,将学习训练过的手写学号与提取出的特征值进行匹配以达到识别字符的目的。
目 录
第一章 绪论 1
1.1课题研究背景和意义 1
1.2 OCR技术在国内外的研究现状 1
1.3 论文的主要工作 2
1.4 本文的组织结构 2
第二章 图像的预处理技术理论 4
2.1灰度化 4
2.2 去噪 4
2.2.1 高斯滤波法 4
2.2.2 中值滤波法 5
第三章 字符图像的分割技术 6
3.1 基于阈值的图像分割 7
3.1.1 全局阈值分割法 8
3.1.2 局部阈值分割法 8
3.2 感兴趣(ROI)区域获取 10
3.2.1区域裁剪 11
3.2.2连通域分割 11
第四章 基于MLP的字符识别 13
4.1 HALCON软件介绍 13
4.2分类器的选取 13
4.3创建多层感知器MLP分类器 14
4.2.2模型创建算子说明 15
4.2.3样本训练算子说明 16
4.2.4字符分类识别算子说明 16
第五章 实验结果与分析 17
5.1字符特征的获取 17
5.2字符识别 19
第六章 总结与展望 22
致谢 *好棒文|www.hbsrm.com +Q: #351916072#
23
参考文献 24
第一章 绪论
1.1课题研究背景和意义
随着经济的发展和科技的进步,社会已经在不知不觉中步入信息化社会。对于获取材料的信息的手段,具有手段多元化,方式多样化的特点,人们在不知不觉中习惯了对数字信息的汲取。如在实验室资料的管理中,资料的存储形式可大致分为两类:纸质文档和数字文档。相对于纸质文档而言,数字文档具有不可忽视的优点:检索速度快、管理方便、所占存储空间较小、利于编辑、贴近现代人的日常生活。
本次课题的提出,是基于在实验室管理中,多数实验报告保存在实验室用以日后的统计和检查,堆积如山的报告占据了实验室的空间,也需要管理人员投入巨大的精力,因此,为了改变这种现状,本文利用光学字符识别OCR(Optical Character Recognition)技术,识别学生在报告中的手写学号等信息,方便录入系统,以实现对纸质材料文档的数字化。
1.2 OCR技术在国内外的研究现状
OCR技术起步较晚,20世纪初期由德国科学家Tausheck提出概念。后由美国科学家Handel对其概念引申至对文字识别的技术。直到20世纪中业,计算机诞生,这一技术才得以实现,OCR技术通俗来讲就是分为两步,第一步是对文字和字符进行扫描并识别,第二步是将扫描结果通过计算机转换成内码。
1957年,第一个OCR软件成功实现,利用了窥视孔方法,能够达到在一秒内识别大约120个英文字母的速度。也就是从这时候开始,OCR技术在国际范围内开始得到广泛的发展和研究。OCR技术的发展过程大致可以分为以下三个进程,首先是在20世纪60年代初期,IBM公司研制出的OCR软件,能够成功实现识别印刷体中的数字和英文字母,其局限性是,字体需要指定。其次在20世纪70年代,日本东芝公司成功研制出对邮政编码进行分拣的系统,这种应用广泛的被采用在实际生活中,为邮政行业带来了较大的便捷。最后在19世纪80年代,第三代OCR相关产品应运而生,同样是由日本东芝公司所开发研制,此次识别的并非英文字符,涉及到了对日文汉字的识别,于此同时,东芝公司又成功实现了对手写字符的识别,这对于OCR技术的发展历程来说,可以说是飞跃性的进展。
相较于一些欧洲国家以及日本,我国对于OCR技术投入发展较晚。1970年左右,我国正式投入研究,当时受到经济条件的限制,主要识别是在对数字和英文字母。直到1986年,国家出台的863计划,才对汉字的识别建议,由于汉字字体的结构相较于数字和字母而言,识别难度加大,这也导致我国关于OCR技术的发展较为缓慢。一直到1994年,以清华大学研制的THOCR94为标志,我国开始逐渐跟上国际研究水平的脚步。
1.3 论文的主要工作
本文主要研究的是利用OCR技术,基于HALCON环境下,对字符进行识别,本文的主要研究内容如下:
(1)字符图像的预处理研究。具体内容是在对图像的特征值进行提取前,对图像先采用灰度化和去噪的预处理。
(3)字符的图像分割技术,分别介绍了阈值分割技术和感兴趣区域提取(ROI),介绍阈值分割的两种方法:全局阈值分割的方法以及局部阈值分割的方法。感兴趣区域获取主要是对区域直接裁剪,再进行连通域分割以获取字符特征值。
(4)MLP算法的运用研究,具体内容是研究MLP原理并完成在HALCON环境下对程序的编写。
(5)识别字符图像,对研究的结果进行分析和测定。分析测定所存在的误差,研究是否存在改进的方法。
1.4 本文的组织结构
OCR技术在实验室管理中的应用是在HALCON环境下对手写字符进行识别,具体流程如下图所示:
/图1.1组织结构流程图
本文对字符图像的预处理技术、图像分割技术,感兴趣区域获取,在HACLON环境下对基于MLP训练分类对字符进行识别等方面进行了介绍研究,下面是每一章的具体内容:
第一章:绪论。将本文的研究背景与意义进行简介,对OCR技术的发展历程有所了解。概述国内外研究现状,介绍了本次论文研究的主要工作以及每章重点内容。
第二章:字符图像的预处理技术,主要分为两个方面:对图像的灰度化处理、去噪。其中,介绍了去噪的两种方法:高斯滤波法和中值滤波法,本文采用的是中值滤波法。
目 录
第一章 绪论 1
1.1课题研究背景和意义 1
1.2 OCR技术在国内外的研究现状 1
1.3 论文的主要工作 2
1.4 本文的组织结构 2
第二章 图像的预处理技术理论 4
2.1灰度化 4
2.2 去噪 4
2.2.1 高斯滤波法 4
2.2.2 中值滤波法 5
第三章 字符图像的分割技术 6
3.1 基于阈值的图像分割 7
3.1.1 全局阈值分割法 8
3.1.2 局部阈值分割法 8
3.2 感兴趣(ROI)区域获取 10
3.2.1区域裁剪 11
3.2.2连通域分割 11
第四章 基于MLP的字符识别 13
4.1 HALCON软件介绍 13
4.2分类器的选取 13
4.3创建多层感知器MLP分类器 14
4.2.2模型创建算子说明 15
4.2.3样本训练算子说明 16
4.2.4字符分类识别算子说明 16
第五章 实验结果与分析 17
5.1字符特征的获取 17
5.2字符识别 19
第六章 总结与展望 22
致谢 *好棒文|www.hbsrm.com +Q: #351916072#
23
参考文献 24
第一章 绪论
1.1课题研究背景和意义
随着经济的发展和科技的进步,社会已经在不知不觉中步入信息化社会。对于获取材料的信息的手段,具有手段多元化,方式多样化的特点,人们在不知不觉中习惯了对数字信息的汲取。如在实验室资料的管理中,资料的存储形式可大致分为两类:纸质文档和数字文档。相对于纸质文档而言,数字文档具有不可忽视的优点:检索速度快、管理方便、所占存储空间较小、利于编辑、贴近现代人的日常生活。
本次课题的提出,是基于在实验室管理中,多数实验报告保存在实验室用以日后的统计和检查,堆积如山的报告占据了实验室的空间,也需要管理人员投入巨大的精力,因此,为了改变这种现状,本文利用光学字符识别OCR(Optical Character Recognition)技术,识别学生在报告中的手写学号等信息,方便录入系统,以实现对纸质材料文档的数字化。
1.2 OCR技术在国内外的研究现状
OCR技术起步较晚,20世纪初期由德国科学家Tausheck提出概念。后由美国科学家Handel对其概念引申至对文字识别的技术。直到20世纪中业,计算机诞生,这一技术才得以实现,OCR技术通俗来讲就是分为两步,第一步是对文字和字符进行扫描并识别,第二步是将扫描结果通过计算机转换成内码。
1957年,第一个OCR软件成功实现,利用了窥视孔方法,能够达到在一秒内识别大约120个英文字母的速度。也就是从这时候开始,OCR技术在国际范围内开始得到广泛的发展和研究。OCR技术的发展过程大致可以分为以下三个进程,首先是在20世纪60年代初期,IBM公司研制出的OCR软件,能够成功实现识别印刷体中的数字和英文字母,其局限性是,字体需要指定。其次在20世纪70年代,日本东芝公司成功研制出对邮政编码进行分拣的系统,这种应用广泛的被采用在实际生活中,为邮政行业带来了较大的便捷。最后在19世纪80年代,第三代OCR相关产品应运而生,同样是由日本东芝公司所开发研制,此次识别的并非英文字符,涉及到了对日文汉字的识别,于此同时,东芝公司又成功实现了对手写字符的识别,这对于OCR技术的发展历程来说,可以说是飞跃性的进展。
相较于一些欧洲国家以及日本,我国对于OCR技术投入发展较晚。1970年左右,我国正式投入研究,当时受到经济条件的限制,主要识别是在对数字和英文字母。直到1986年,国家出台的863计划,才对汉字的识别建议,由于汉字字体的结构相较于数字和字母而言,识别难度加大,这也导致我国关于OCR技术的发展较为缓慢。一直到1994年,以清华大学研制的THOCR94为标志,我国开始逐渐跟上国际研究水平的脚步。
1.3 论文的主要工作
本文主要研究的是利用OCR技术,基于HALCON环境下,对字符进行识别,本文的主要研究内容如下:
(1)字符图像的预处理研究。具体内容是在对图像的特征值进行提取前,对图像先采用灰度化和去噪的预处理。
(3)字符的图像分割技术,分别介绍了阈值分割技术和感兴趣区域提取(ROI),介绍阈值分割的两种方法:全局阈值分割的方法以及局部阈值分割的方法。感兴趣区域获取主要是对区域直接裁剪,再进行连通域分割以获取字符特征值。
(4)MLP算法的运用研究,具体内容是研究MLP原理并完成在HALCON环境下对程序的编写。
(5)识别字符图像,对研究的结果进行分析和测定。分析测定所存在的误差,研究是否存在改进的方法。
1.4 本文的组织结构
OCR技术在实验室管理中的应用是在HALCON环境下对手写字符进行识别,具体流程如下图所示:
/图1.1组织结构流程图
本文对字符图像的预处理技术、图像分割技术,感兴趣区域获取,在HACLON环境下对基于MLP训练分类对字符进行识别等方面进行了介绍研究,下面是每一章的具体内容:
第一章:绪论。将本文的研究背景与意义进行简介,对OCR技术的发展历程有所了解。概述国内外研究现状,介绍了本次论文研究的主要工作以及每章重点内容。
第二章:字符图像的预处理技术,主要分为两个方面:对图像的灰度化处理、去噪。其中,介绍了去噪的两种方法:高斯滤波法和中值滤波法,本文采用的是中值滤波法。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/dzkxyjs/619.html