情景画像中文字领域检出算法设计(源码)【字数:14133】

摘 要摘 要随科学技术的高速发展,色彩丰富的自然场景图像已经成为文化、知识等信息的重要传播媒介。例如道路两侧的广告牌,交通标志,公共场所的导向图等等。这些丰富的文本信息可以帮助我们识别场景图像的内容和含义。正因如此,将场景图像中的文字检测并识别出来具有极其重要的作用。然而,视觉障碍者由于视觉功能的受损很难通过眼睛来读取这些视觉信息。这是因为,文字必须被翻译成语音或者盲文,而图像必须被转化成触觉图后,才能被盲人聆听或者触摸识读。因此,自动读取自然场景中的文字信息在支援视觉障碍者户外行走中发挥着重要的作用。如果采用计算机软件识别这些图像中的文本信息并应用在盲人辅助系统的开发[1]中,将给视障人群的生活带来极大的方便。但是,如何以高精度抽取场景图像中的文字是一个很大的挑战。这是因为,场景图像中通常不仅包含文字或者符号,同时还包含建筑物、行人、道路、树木等等。而且,即使同一张图像里面的文字有时也会在大小、颜色、字体上有所不同。对于这些情况,本设计将致力于研究情景画像中文字检测与抽取的工作,以帮助视觉障碍者阅读自然场景中的文本信息。对于场景图像背景结构复杂,文字读取精度不高的问题,本文通过对场景图像特点的分析,在检测抽取文字前对图像进行预处理,然后通过采用数学形态学中的toggle operaror进行重新设计算法即通过对toggle算子进行迭代使用,并且每次迭代中阈值动态变化,来完成对灰度图像匀质领域的分割[2]。该方法可以很好地避免图像过度分割或分割不足的问题,得到比较理想的实验结果。本设计采用的是一种背景相关分析的文本检测法[3],目的是为了找到高性能的场景图像识别系统。这种方法是针对自然场景中的文本与其背景之间的相互关联,利用典型的相关分析方法挖掘背景与文字之间的相关性[4],提取字符与背景之间的典型相关特征用作字符的分类特征,采用这种典型相关特征可以显著提高场景文本的识别性能。此方法[5]突破了传统文本识别方法仅仅考虑文字本身特点的局限性,充分的利用了自然场景图像文本的周边信息,对自然场景图像中文字识别的研究是一个新的突破。关键词自然场景图像,匀质区域,文字检测,视觉障碍者,模糊推理
目录
第一章 绪论 1
1.1 课题研究背景及意义 1
1.2 场景文本特点及场景文本识 3
1.2.1 场景图 *好棒文|www.hbsrm.com +Q: ^351916072^ 
像及场景文本的特点 3
1.2.2 场景图像文本识别过程 5
1.3 国内外研究现状及分析 5
1.4 论文研究内容及全文结构 7
1.4.1 本文主要研究内容 7
1.4.2 论文的组织结构 7
第二章 图像前处理与分割 9
2.1 引言 9
2.2 图像预处理 9
2.3 图像匀质区域分割 10
2.3.1 图像匀质区域分割 10
2.3.2 候选招牌区域检测 11
第三章 基于视觉显著性的候选招牌区文本检测 14
3.1 多尺度包围盒视觉显著性模型 15
3.2 基于视觉显著性模型的文本区域检测 17
第四章 自然场景图像字符串提取 20
4.1 字符串提取 20
4.1.1 单字符检测 20
4.1.2 基于模糊推理的字符串提取 20
结 论 23
致 谢 25
参考文献 26
第一章 绪论
在图像处理过程中,自动检测和识别的目的是为了帮助目标智能化和自动化的实现,越来越受到人类的重视。图像中含有很多的信息,其中图像上的文字信息对图像尤其是自然场景图像内容的分析起了关键的作用。图像中文字信息的检测和抽取是一个十分具有现实应用的研究方向。本文将深入的阐述具有复杂背景的自然场景图像中文字的抽取的办法,主要在图像分割和字符串抽取进行了深入的探讨。
本章节的组织结构如下:第一部分主要介绍本设计的研究背景及意义;第二部分将介绍复杂的自然场景图像的特点及图像中文本识别的基本概念和内容;第三部分简要介绍了国内外对本课题的研究现状及分析;第四部分介绍本文的主要研究内容及对全文的结构做一个简单的介绍。
1.1 课题研究背景及意义
随着目前互联网,多媒体技术和计算机技术的飞速发展,人类生活方式也发生了重大变化。在我们的日常生活中,网络数字图像呈指数增长,这些丰富多彩的图像不仅吸引了人们的关注,也为我们传达了丰富的重要信息。
我们日常获取信息的绝大多数方式就是通过眼睛看到的,我们可以直观地获取这些场景图像中包含的颜色信息,图形纹理以及位置信息等重要信息。另外,场景画像通常包含着重要的文字信息,这些文字可以准确有效地描述场景图像的信息,可以帮助我们在很大程度上理解自然场景图像的内容。这些文字信息对人们的日常生活非常重要,通常包括:街道两侧的广告牌,交通标志,公共场所指导图,房屋号码等。随着科学技术的飞速发展,计算机科学技术已经迅速发展成为人们生活中不可或缺的一部分,如果能够利用电脑软件自动检测场景图像并提取文本信息,那么将会给我们的生活和工作都带来极大的便利。
自然场景图像中文字识别是人工智能的一个重要领域[6],这是一项综合了模式识别、信息处理、人工智能、应用图像处理、形态学、心理学、仿生学、计算机科学等多学科的综合性技术,可以广泛应用于各个领域,同时具有较高的应用价值,尤其在理论研究方面也体现了深远意义。
随着OCR(光学字符识别技术)的兴起与成长,许多研究人员开始研究情景画像中的文字抽取。图像的文本抽取对识别嵌入在复杂背景图像中的文本信息具有重要的意义和作用。场景图像中包括了大量的有重要作用信息。图像中的文本信息是帮助读懂场景图像内容高级含义的重要线索。
情景画像中文字识别和提取可以应用于如下几个领域:
(1)盲人辅助系统:盲人在户外行走时,通过可携带的设备来搜集所在环境周围的道路指示牌、广告提示牌、门牌号、商品的标牌及价格等,然后导航设备就将搜集到的图像中的文字信息进行定位检测和抽取,并且转化成语音信息来提醒视觉障碍者。
(2)智能交通化系统:自动识别车辆牌照有助于实时监控和管理交通状况。尤其是安装相机的道路上,拍摄流量视频,经过视频处理后,文字提取可以自动识别车牌信息。
(3)名片识别:随着计算机和PDA的普及[7],名片管理逐渐发展成为电子模型。 如果我们手动输入名片信息,将花费大量人力和时间。所以,名片识别系统应运而生,通过扫描名片来获得图像,接着进行文字信息的检测抽取。
(4)可携带翻译系统:这是一种可以使用手机拍摄外文图像,然后用可携带翻译系统,手机可以自动检测,识别和翻译成自己国家的文字的系统。比如外国游客在国外旅行时应用较多。这样既方便了游客,有能适应社会向地球村发展的趋势。
(5)工业自动化检测:该检测的目的是识别零件,主要通过生产零部件上的文字利用视觉机器人进行识别。
正因这样,场景图像文字识别技术研究具有广阔的应用前景,较大的理论和实践意义。
本文主要讨论场景图像文字抽取在盲人导航系统中的应用,以帮助视障人士阅读文本自然景观。
据世界卫生组织统计[8],全世界大约要有两亿八千五百万人患有视觉障碍。其中无论是完全失明的人还是视力低下的人在户外行走时都无法通过眼睛读取场景图像的文本信息。这些文字必须被翻译成语音或盲文、图像必须转化成触觉图后,才能被盲人聆听或识读。因此,开发一个步行引导装置协助视障人士起着关键作用。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/679.html

好棒文