机器学习的建筑图纸内容纠错系统设计(源码)
本文主要研究的是淮安图审错误检测系统,通过搭建一个文字图像检测识别模型与文字处理模型来进行图纸错误检测。文字图像识别模型使用卷积神经网络进行搭建,训练数据为两百万的文字图像,最终的文字图像识别正确率可以达到94%以上;文字处理模型使用jieba、Word2Vec等工具进行切词和分析,最后再使用人工规则库进行后处理保证模型检测出的错误的正确率。本文的后期的用于文字处理的规则库可以检测10多种错误,检错率可以达到98%以上,规则库可以后期进行扩展。关键词 建筑图纸,自然语言处理,文字识别,机器学习
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 需求分析 3
2.1 可行性分析 3
2.2 用户类型分析 3
2.3 安全性分析 4
2.4 性能分析 4
3 关键问题的研究 5
3.1 关键问题 5
3.2 关键技术 6
4 总体设计 8
4.1 架构设计 8
4.2 功能设计 9
5 图像处理算法设计 10
5.1 文字区域切分算法设计 10
5.2 文字区域行切分算法设计 13
5.3 文字识别模型设计 15
6 错误检测模型设计 29
6.1 词向量模型 29
6.2 句子相似度模型 30
6.3 模型后处理 32
7 系统详细设计 32
7.1 后端算法模块 32
7.2 前端交互模块 32
8 系统部署与测试 33
8.1 系统部署 33
8.2 系统测试及结果 33
8.3 测试总结 33
结 论 35
致 谢 36
参考文献 37
引言
课题背景
在建筑图纸数量飞速增长的当前,能够在数量巨大、种类繁多的建筑图纸中快速的定位一些常见的错误以帮助图审专家实现快速审图已经成为一项亟需解决的问题。 *好棒文|www.hbsrm.com +Q: #351916072#
建筑图纸纠错系统通过对以往的专家的评论数据进行学习,能够自动的检测建筑图纸中的错误,增强图审平台对于图审数据的处理能力,提高审图人员的审图效率。
在淮安图审平台的建设进程中,由于平台的数据处理能力不足、算法开发力度不够,导致图审平台的大量数据没有充分的利用起来,导致许多图纸人工审图效率低、速度慢,无法跟上图纸数量的快速增长[1]。通过自主开发的图像文字识别系统和问题检测系统,运用最新的机器学习技术对大量的数据进行学习,可以快速定位建筑图纸中的错误,在最大程度上挖掘出数据的价值,提高图审专家的审图效率。
国内外研究综述
综合分析本文的图纸错误检测系统,在设计制作过程中主要解决两个技术难点:第一是训练一个文字图像识别模型对图纸中的图纸设计说明进行识别,这收集很多的打印字体的文字图像数据,设计图像处理模型对文字图像数据进行学习,达到可以实用的正确率;第二是对现有的专家审图数据进行学习,通过机器学习技术学习到一些规律再辅以人工检测已达到较高正确率。文字图像识别需要用到的技术有图像滤波、连通域检测技术、图像腐蚀与膨胀、深度学习技术中的卷积神经网络和循环神经网络等、tensorflow和mxnet等开发框架,文字处理需要用到Word2Vec、分词技术、句子相似性计算等。
国外研究综述
1943年,神经科学家麦卡洛克(W.S.McCilloch)和数学家皮兹(W.Pitts)联合建立MCP模型[2]。MCP是使用计算机来模拟人的神经元反应过程,将神经元简化为一个函数,将输入信号加权求和然后使用非线性激活。接着就有Marvin Minsky证明了感知器本质上是一种线性模型,连最简单的或与问题都无法解决,导致了深度学习进入近20年的停滞。1986年,神经网络之父Hinton发明了BP算法,这个算法可以用于MCP的训练,并且把sigmoid作为深度学习的激活函数,成功解决了非线性分类的问题,引发了第二次人工智能的学习运动。然而BP算法在1991年的时候又被指出有缺陷,就是会出现梯度消失的问题,同时,支持向量机(SVM)等依靠统计学为基础的模型被提出,分散了学者们对于深度学习的注意力。到了2006年,Hinton的学生在《科学》上发表了一篇非常有影响力的文章,在这篇文章中,作者提出了可以解决梯度消失的方案,就是在进行有监督的训练之前先使用无监督的学习方法来对模型进行参数初始化,这样模型就可以跳过局部最小值点并获得不错的学习效果,他的这一篇文章开创了将深度学习应用到工业界的先例。到了近三年,Hinton课题组参加Imagenet图像识别比赛,使用AlexNet深度网络模型碾压其他组的模型,一举吸引了众多研究者的注意[3]。谷歌旗下Deep Mind公司使用AlphaGo与围棋顶尖选手李世石对战获得胜利,将深度学习又一次让大众熟知。
文字处理方面国外的文字处理技术早在一个世纪前就开始研究,但当时都是一些较为浅显的探索,有语法分析、依存句法分析等等,从句子的表象进行分析来获得一些规律,功能范围非常的狭窄[4]。直到近代,开始使用数字化的方法对语言进行处理,使用CNN、RNN、HMM、CRF等工具依靠大数据下的概率对语言进行数字化处理,才可以说自然语言处理开始沿着科学的道路前进。现在国外的自然语言处理可以较好的提取出语句中的实体信息,可以与人聊天等,代表产品是微软的小冰等。
国内研究综述
国内的图像处理是从上世纪五十年代开始起步的,那时只是作为工业上的一个视觉方面的项目,后来在六十到七十年代之间,导弹和航天工业蓬勃发展,而发展这些行业需要精密的检测技术,人工很难达到航天级的精密产品检测便只能依靠图像视觉检测,再后来到了八十、九十年代,数码相机和各种数字图像设备普及使得图像处理技术飞速发展,各种人脸检测、文字检测算法不断被开发出来[5]。
到了二十一世纪,图像检测应用越来越普遍,使用也越来越方便。图像检测技术也在不断的提升,最早应用的模型是模板匹配模型,这种模型在识别某个图像时必须保证训练时的图像数据库中曾经有过对应模板。如果当前的图像能与数据库中的模板相匹配,那就可以说图像被识别了。后来经过许多研究者的不屑努力,找到了许多能有效的描述图像特征的特征提取算法,比如SIFT、SURF、ORB、HOG、LBP、HAAR等,这些经典算法都是经过严密的数学计算与研究者的灵感相结合而发现的,能够有效的提取特征,然后使用分类器,例如SVM、KNN、朴素贝叶斯、softmax、boosting算法等,对设计提取出的特征使用分类器进行分类,并最终找到图片的正确标签。现在则是使用卷积神经网络自动的对图像进行特征提取,然后将提取的图像特征放入全连接等分类器中进行分类,深度学习可以说是当前唯一一种可以实现端到端学习的训练框架。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 需求分析 3
2.1 可行性分析 3
2.2 用户类型分析 3
2.3 安全性分析 4
2.4 性能分析 4
3 关键问题的研究 5
3.1 关键问题 5
3.2 关键技术 6
4 总体设计 8
4.1 架构设计 8
4.2 功能设计 9
5 图像处理算法设计 10
5.1 文字区域切分算法设计 10
5.2 文字区域行切分算法设计 13
5.3 文字识别模型设计 15
6 错误检测模型设计 29
6.1 词向量模型 29
6.2 句子相似度模型 30
6.3 模型后处理 32
7 系统详细设计 32
7.1 后端算法模块 32
7.2 前端交互模块 32
8 系统部署与测试 33
8.1 系统部署 33
8.2 系统测试及结果 33
8.3 测试总结 33
结 论 35
致 谢 36
参考文献 37
引言
课题背景
在建筑图纸数量飞速增长的当前,能够在数量巨大、种类繁多的建筑图纸中快速的定位一些常见的错误以帮助图审专家实现快速审图已经成为一项亟需解决的问题。 *好棒文|www.hbsrm.com +Q: #351916072#
建筑图纸纠错系统通过对以往的专家的评论数据进行学习,能够自动的检测建筑图纸中的错误,增强图审平台对于图审数据的处理能力,提高审图人员的审图效率。
在淮安图审平台的建设进程中,由于平台的数据处理能力不足、算法开发力度不够,导致图审平台的大量数据没有充分的利用起来,导致许多图纸人工审图效率低、速度慢,无法跟上图纸数量的快速增长[1]。通过自主开发的图像文字识别系统和问题检测系统,运用最新的机器学习技术对大量的数据进行学习,可以快速定位建筑图纸中的错误,在最大程度上挖掘出数据的价值,提高图审专家的审图效率。
国内外研究综述
综合分析本文的图纸错误检测系统,在设计制作过程中主要解决两个技术难点:第一是训练一个文字图像识别模型对图纸中的图纸设计说明进行识别,这收集很多的打印字体的文字图像数据,设计图像处理模型对文字图像数据进行学习,达到可以实用的正确率;第二是对现有的专家审图数据进行学习,通过机器学习技术学习到一些规律再辅以人工检测已达到较高正确率。文字图像识别需要用到的技术有图像滤波、连通域检测技术、图像腐蚀与膨胀、深度学习技术中的卷积神经网络和循环神经网络等、tensorflow和mxnet等开发框架,文字处理需要用到Word2Vec、分词技术、句子相似性计算等。
国外研究综述
1943年,神经科学家麦卡洛克(W.S.McCilloch)和数学家皮兹(W.Pitts)联合建立MCP模型[2]。MCP是使用计算机来模拟人的神经元反应过程,将神经元简化为一个函数,将输入信号加权求和然后使用非线性激活。接着就有Marvin Minsky证明了感知器本质上是一种线性模型,连最简单的或与问题都无法解决,导致了深度学习进入近20年的停滞。1986年,神经网络之父Hinton发明了BP算法,这个算法可以用于MCP的训练,并且把sigmoid作为深度学习的激活函数,成功解决了非线性分类的问题,引发了第二次人工智能的学习运动。然而BP算法在1991年的时候又被指出有缺陷,就是会出现梯度消失的问题,同时,支持向量机(SVM)等依靠统计学为基础的模型被提出,分散了学者们对于深度学习的注意力。到了2006年,Hinton的学生在《科学》上发表了一篇非常有影响力的文章,在这篇文章中,作者提出了可以解决梯度消失的方案,就是在进行有监督的训练之前先使用无监督的学习方法来对模型进行参数初始化,这样模型就可以跳过局部最小值点并获得不错的学习效果,他的这一篇文章开创了将深度学习应用到工业界的先例。到了近三年,Hinton课题组参加Imagenet图像识别比赛,使用AlexNet深度网络模型碾压其他组的模型,一举吸引了众多研究者的注意[3]。谷歌旗下Deep Mind公司使用AlphaGo与围棋顶尖选手李世石对战获得胜利,将深度学习又一次让大众熟知。
文字处理方面国外的文字处理技术早在一个世纪前就开始研究,但当时都是一些较为浅显的探索,有语法分析、依存句法分析等等,从句子的表象进行分析来获得一些规律,功能范围非常的狭窄[4]。直到近代,开始使用数字化的方法对语言进行处理,使用CNN、RNN、HMM、CRF等工具依靠大数据下的概率对语言进行数字化处理,才可以说自然语言处理开始沿着科学的道路前进。现在国外的自然语言处理可以较好的提取出语句中的实体信息,可以与人聊天等,代表产品是微软的小冰等。
国内研究综述
国内的图像处理是从上世纪五十年代开始起步的,那时只是作为工业上的一个视觉方面的项目,后来在六十到七十年代之间,导弹和航天工业蓬勃发展,而发展这些行业需要精密的检测技术,人工很难达到航天级的精密产品检测便只能依靠图像视觉检测,再后来到了八十、九十年代,数码相机和各种数字图像设备普及使得图像处理技术飞速发展,各种人脸检测、文字检测算法不断被开发出来[5]。
到了二十一世纪,图像检测应用越来越普遍,使用也越来越方便。图像检测技术也在不断的提升,最早应用的模型是模板匹配模型,这种模型在识别某个图像时必须保证训练时的图像数据库中曾经有过对应模板。如果当前的图像能与数据库中的模板相匹配,那就可以说图像被识别了。后来经过许多研究者的不屑努力,找到了许多能有效的描述图像特征的特征提取算法,比如SIFT、SURF、ORB、HOG、LBP、HAAR等,这些经典算法都是经过严密的数学计算与研究者的灵感相结合而发现的,能够有效的提取特征,然后使用分类器,例如SVM、KNN、朴素贝叶斯、softmax、boosting算法等,对设计提取出的特征使用分类器进行分类,并最终找到图片的正确标签。现在则是使用卷积神经网络自动的对图像进行特征提取,然后将提取的图像特征放入全连接等分类器中进行分类,深度学习可以说是当前唯一一种可以实现端到端学习的训练框架。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/918.html