机器学习的建筑图纸审查意见系统设计(源码)
为了降低建筑行业从业人员的审查图纸压力,提高建筑图纸的意见审查效率,设计实现了一种基于文本分类的建筑图纸审查意见系统。系统中的数据来源于淮安市图审系统,共计有95000条数据,通过综合分析淮安市图审系统中历史建筑图纸的审图意见,审图信息等数据,并使用FastText文本分类模型和基于LSI相似度模型的文本分析方法,对建筑图纸的名称等关键信息进行处理,分析建筑图纸的名称和意见分类以及意见标签之间的联系,该算法取得了良好的实验效果,实验中对于建筑图纸名称能够达到84%准确率的意见数据分类效果,对于图纸意见的标签预测能够达到51%以上的准确率。同时系统通过Python语言结合BootStrap以及Flask框架开发实现,以可视化结果呈现给用户,该系统经过分析可以为审查人员带来便利,为审查人员提供较好的意见预警参考信息。关键词 建筑图纸,FastText文本分类,LSI模型,相似度分析
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 4
2 关键问题的研究 4
2.1 关键问题 4
2.2 关键技术 5
3 需求分析 6
3.1 系统的总体目标与思路 6
3.2 系统的可行性分析 6
3.3 系统的需求分析 7
4 实验过程 9
4.1 Doc2vec相似度 9
4.2 Latent Dirichlet Allocation模型 10
4.3 随机森林分类 11
4.4 FastText模型 12
4.3 综述 15
5 系统建模 15
5.1 过程层次建模 16
5.2 业务过程建模 16
5.3 类建模 17
5.4 活动建模 19
5.5 交互建模 20
6 系统设计 21
6.1 设计概述 21
6.2 总体架构 21
6.3 界面设计 22
6.4 数据库设计 2 *好棒文|www.hbsrm.com +Q: ¥351916072$
4
6.5 接口设计 26
6.6 算法设计 27
7 系统测试 32
7.1 系统部署 32
7.2 系统测试 32
结论 35
致谢 36
参考文献 37
附录A 用户操作手册 39
附录B 大学期间发表的论文 44
附录C 查重报告首页 48
1 引言
1.1 课题背景
建筑行业开始使用互联网技术来提高建筑图纸的审核效率,如何通过使用相关的正确技术,使其更好更高效的服务于建筑行业成了当务之急。随着建筑系统中数据量的逐步增加,大量重复类型的图纸意见以及明显的错误,导致专家对于建筑图纸的审核效率逐步下降。本系统主要针对目前预审系统中存在的问题,利用机器学习技术,自动识别出历史建筑图纸中的意见数据,获取已经给出审查意见的图纸意见之间的关联,最后对未审核的新图纸生成一个预警或建议,辅助审核机构对于图纸的审核,从而更好的为建筑商提供图纸审查服务,提高行业人员意见审核的效率。
1.2 国内外研究综述
自然语言处理技术(NLP)是在人工智能领域占有重要的地位,它属于综合多重技术于一起,尤其涉及到计算机有效地处理大型自然语言数据。其中文本挖掘作为自然语言处理的重要范畴,应用的领域最广,文本挖掘也称为文本分析,是从大量文本资源中生成新信息,并将非结构化文本转换为结构化数据以用于进一步分析的过程。文本挖掘可以识别事实,关系和断言,其产生的事实数据同时可以作为机器学习的原始数据。
建筑图纸审查意见系统是基于计算机文本挖掘领域的系统。Luhn H P. [1] 在1958年首先提出利用数学上的统计方法对词频进行统计并进行文本分类,随后一大批学者在这一领域进行了大量的研究。截至目前,国外大批商用系统已经大量出现,同时也出现了很多文本挖掘工具,例如TelTech公司的TelTech系统、IBM公司的文本智能挖掘工具等。近些年,Shehata S[2]等人通过使用基于句子的,基于文档的,基于语料库的和组合的方法显着提高了文本分类质量。Gaspers J[3]等人则提出了一种基于自举机制的语言习得的计算模型,显示自顶向下处理增加了理解性能和分割准确性,有助于更好地理解第一语言习得中自下而上和自上而下的过程之间的相互作用,能够更好地理解语言习得中涉及的机制和架构。而国内发展则较为迟缓,近几年才开始起步,中外文本处理难度不同在于国内文本挖掘处理的是中文文本,与西文单个表意单词不同,中文数据更加注重词组前后的关联。徐戈等人在2011年详细地论述了包括概率隐形语义索引、LDA主题模型的自然语言处理中主题模型的发展[4],并利用期望最大值算法分析了主题模型参数估计,这之后的国内自然语言处理领域起着重要作用。刘震和陈晶等人在2017年提出了广义Jaro—Winkler相似度算法[5],将两个不同文档数据集合中的同一个文本数据进行匹配关联,最终得到了较好的准确率。庞亮[6]综合对三类深度文本匹配模型在复述问题、自动问答和信息检索的实验,详细分析了三类模型的优点和缺点,这对以后的自然语言处理具有重要的作用。
a)文本分词
文本分词是文本挖掘中一项重要的基础性工作,词作为NLP中最小的有意义的成分,由于西文自身的特点与中文分词完全不同,西方文字在每个词与词之间都会存在空格,而中文文本并没有明显的分割符号,在国外的研究较少。在国内,由于起点较晚,国内第一个中文分词系统CDWS于上个世纪90年代才得以发布,实现了2500 万字的词频统计工作,之后的中国科学院计算技术研究所所研制出的汉语词法分析系统ICTCLAS[7],在之后多项评测之中,取得了第一的佳绩,该系统具有中文分词,实体识别,新词识别,标注词性等多种功能。ICTCLAS的3.0版本速度提升较大,分词精度较高,在当时是最好的汉语词法分析系统。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 4
2 关键问题的研究 4
2.1 关键问题 4
2.2 关键技术 5
3 需求分析 6
3.1 系统的总体目标与思路 6
3.2 系统的可行性分析 6
3.3 系统的需求分析 7
4 实验过程 9
4.1 Doc2vec相似度 9
4.2 Latent Dirichlet Allocation模型 10
4.3 随机森林分类 11
4.4 FastText模型 12
4.3 综述 15
5 系统建模 15
5.1 过程层次建模 16
5.2 业务过程建模 16
5.3 类建模 17
5.4 活动建模 19
5.5 交互建模 20
6 系统设计 21
6.1 设计概述 21
6.2 总体架构 21
6.3 界面设计 22
6.4 数据库设计 2 *好棒文|www.hbsrm.com +Q: ¥351916072$
4
6.5 接口设计 26
6.6 算法设计 27
7 系统测试 32
7.1 系统部署 32
7.2 系统测试 32
结论 35
致谢 36
参考文献 37
附录A 用户操作手册 39
附录B 大学期间发表的论文 44
附录C 查重报告首页 48
1 引言
1.1 课题背景
建筑行业开始使用互联网技术来提高建筑图纸的审核效率,如何通过使用相关的正确技术,使其更好更高效的服务于建筑行业成了当务之急。随着建筑系统中数据量的逐步增加,大量重复类型的图纸意见以及明显的错误,导致专家对于建筑图纸的审核效率逐步下降。本系统主要针对目前预审系统中存在的问题,利用机器学习技术,自动识别出历史建筑图纸中的意见数据,获取已经给出审查意见的图纸意见之间的关联,最后对未审核的新图纸生成一个预警或建议,辅助审核机构对于图纸的审核,从而更好的为建筑商提供图纸审查服务,提高行业人员意见审核的效率。
1.2 国内外研究综述
自然语言处理技术(NLP)是在人工智能领域占有重要的地位,它属于综合多重技术于一起,尤其涉及到计算机有效地处理大型自然语言数据。其中文本挖掘作为自然语言处理的重要范畴,应用的领域最广,文本挖掘也称为文本分析,是从大量文本资源中生成新信息,并将非结构化文本转换为结构化数据以用于进一步分析的过程。文本挖掘可以识别事实,关系和断言,其产生的事实数据同时可以作为机器学习的原始数据。
建筑图纸审查意见系统是基于计算机文本挖掘领域的系统。Luhn H P. [1] 在1958年首先提出利用数学上的统计方法对词频进行统计并进行文本分类,随后一大批学者在这一领域进行了大量的研究。截至目前,国外大批商用系统已经大量出现,同时也出现了很多文本挖掘工具,例如TelTech公司的TelTech系统、IBM公司的文本智能挖掘工具等。近些年,Shehata S[2]等人通过使用基于句子的,基于文档的,基于语料库的和组合的方法显着提高了文本分类质量。Gaspers J[3]等人则提出了一种基于自举机制的语言习得的计算模型,显示自顶向下处理增加了理解性能和分割准确性,有助于更好地理解第一语言习得中自下而上和自上而下的过程之间的相互作用,能够更好地理解语言习得中涉及的机制和架构。而国内发展则较为迟缓,近几年才开始起步,中外文本处理难度不同在于国内文本挖掘处理的是中文文本,与西文单个表意单词不同,中文数据更加注重词组前后的关联。徐戈等人在2011年详细地论述了包括概率隐形语义索引、LDA主题模型的自然语言处理中主题模型的发展[4],并利用期望最大值算法分析了主题模型参数估计,这之后的国内自然语言处理领域起着重要作用。刘震和陈晶等人在2017年提出了广义Jaro—Winkler相似度算法[5],将两个不同文档数据集合中的同一个文本数据进行匹配关联,最终得到了较好的准确率。庞亮[6]综合对三类深度文本匹配模型在复述问题、自动问答和信息检索的实验,详细分析了三类模型的优点和缺点,这对以后的自然语言处理具有重要的作用。
a)文本分词
文本分词是文本挖掘中一项重要的基础性工作,词作为NLP中最小的有意义的成分,由于西文自身的特点与中文分词完全不同,西方文字在每个词与词之间都会存在空格,而中文文本并没有明显的分割符号,在国外的研究较少。在国内,由于起点较晚,国内第一个中文分词系统CDWS于上个世纪90年代才得以发布,实现了2500 万字的词频统计工作,之后的中国科学院计算技术研究所所研制出的汉语词法分析系统ICTCLAS[7],在之后多项评测之中,取得了第一的佳绩,该系统具有中文分词,实体识别,新词识别,标注词性等多种功能。ICTCLAS的3.0版本速度提升较大,分词精度较高,在当时是最好的汉语词法分析系统。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1101.html