词云图生成工具的设计和开发(源码)
在信息技术飞速发展的今天,人们获取信息的方式层出不穷,但同时也产生了信息超量、冗杂等情况。词云是近年来新出现的概念,由外国率先提出,用来处理英文段落,使之生成由关键词构成的图片,让人一目了然,快速获取信息。为了满足中国用户的需求,设计一个可以处理中文词汇的词云生成工具。软件基于中文分词技术,可以提取出中文段落中的高频词作为组成词云的内容。程序不仅可以生成简单图案,还支持用户上传彩色图片,简单处理后作为词云图案生成的模板,极大地增加了词云图的多样性。程序采用Python语言实现,主要使用了Wordcloud、Jieba、OpenCV、PyMySQL等第三方库,连接MySQL数据库,并用PyQt5制作便捷的用户界面,给用户良好的体验。
目录
摘要 1
关键词 1
ABSTRACT 1
KEY WORDS 1
引言 1
1 选题背景 2
1.1 问题的提出 2
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 3
2 开发平台及应用技术 3
2.1 开发环境概述 3
2.2 PYTHON简介 3
2.2.1 Jieba中文分词包 3
2.2.2 Wordcloud 4
2.2.3 PyQt 4
2.2.4 OpenCV 4
2.2.5 PyMySQL 4
2.3 MYSQL数据库概述 5
3 词云图生成工具的分析与设计 5
3.1 可行性分析 5
3.2 词云图生成工具的需求分析 5
3.3 面向对象需求建模 5
3.3.1 分析构建用例图 5
3.3.2 分析构建设计类 7
3.3.3 分析构建状态图 8
3.3.4 分析构建时序图 9
3.4 系统总体设计 10
3.4.1 系统总体架构 10
3.4.2 功能模块设计 10
3.4.3 数据库设计 12
*好棒文|www.hbsrm.com +Q: ¥351916072$
/> 4 软件功能实现 13
4.1 软件主界面 13
4.2 用户注册及登陆功能 14
4.3 充值及开通高级会员功能 14
4.4 文字处理及导出功能 15
4.5 词云参数设置、生成及保存功能 17
4.6 高级词云功能 18
5 软件测试 20
5.1 测试目的 20
5.2 测试过程 20
5.3 测试结果 21
6 总结与展望 21
致谢 21
参考文献 22
词云图生成工具的设计和开发
引言
引言 在当今社会,人们接收的信息越来越丰富,对于种类繁多的信息,人们容易陷入盲区。人们无法回避地面临着对数据的处理、分类和理解等问题。自然语言分析技术应运而生,它能从冗长的文本中提取出重要信息,而这些提取出的信息应该以什么样的形式组织起来,才更能引起人们的注意,便于人们理解,成为了一个不小的问题。 “词云”作为一个新出现的观点为解决这个问题提供了一条可行的途径[1]。所谓词云,就是借助分词技术,从段落中提取关键词,并统计词频,再用这些词语组成一张图片。由清华大学计算机系自然语言分析实验室开发的中文“词云”就像一把打开数据之门的钥匙——十万字的文本,“读懂”只需几秒钟,还能飞快生成“趋势化、可视化”的图表。这样做极大地加快了人们接收信息的速度,并且,这些富有艺术感的词云图让人们更乐于浏览、传播信息。
1 选题背景
1.1 问题的提出
目前,市面上已经有一些词云图的制作工具,其中大多是是外国在线制作器,如:Wordle、TagCloud、Tagul、ABCya、ToCloud。虽然对于英文段落,它们能很好地生成一张词云,但它们的受益群众局限在使用英语的人群,即这些软件没有中文分词功能。如果上传中文段落,它们仅能做到“分句”的效果,生成的最终图片由大量长句组成,不能称之为“词”云。
国内的词云图生成软件则处在刚起步阶段,目前已知的有:ImageChef、图悦、易词云。与国外相比,这些软件在功能上有所限制,生成的图片效果也有不理想的时候,有的软件仅提供几个简单图形供用户使用,多样性也许不能满足用户需求。
面对上述问题,本文设计并开发一款支持中文分词并可自定义上传图片的词云图生成软件。
1.2 国内外研究状况
1.2.1 国外研究状况
想要制作词云,就不得不提到分词技术,这项技术属于自然语言处理(Natural Language Processing,NLP)的研究领域,作为一门比较新颖的学科,也许大家会比较陌生,实际上它不单单是一门语言学,还包含了计算机科学,也就是说,自然语言处理技术是二者合作发展出来的新学科,具有很高的意义和价值[3]。
从字面意思上和广义上来看,自然语言在研究我们人类平常生活中所使用的语言,这属于语言学,但自然语言处理比起语言学,更多地去结合了计算机,研究人和计算机之间的“交流”,它试图将语言通信技术加载到计算机系统上,实现新的技术。因此,自然语言处理很快就被人工智能青睐了,它的理论和方法或许可以实现人类与机器人之间的交流,这是人工智能所期待的功能,也是对我们而言很实用的技术[4]。
由于“词云”这个概念最早由外国提出,因此它最初被用来处理英文文章。众所周知,在一句英文中,我们可以根据空格来区分各个单词,简单明确,计算词频较为容易,制作词云图的时候就相对方便。英文分词大致有三步:
(1)根据标点符号(包括空格)把句子切成单词。
目录
摘要 1
关键词 1
ABSTRACT 1
KEY WORDS 1
引言 1
1 选题背景 2
1.1 问题的提出 2
1.2 国内外研究状况 2
1.2.1 国外研究状况 2
1.2.2 国内研究状况 3
2 开发平台及应用技术 3
2.1 开发环境概述 3
2.2 PYTHON简介 3
2.2.1 Jieba中文分词包 3
2.2.2 Wordcloud 4
2.2.3 PyQt 4
2.2.4 OpenCV 4
2.2.5 PyMySQL 4
2.3 MYSQL数据库概述 5
3 词云图生成工具的分析与设计 5
3.1 可行性分析 5
3.2 词云图生成工具的需求分析 5
3.3 面向对象需求建模 5
3.3.1 分析构建用例图 5
3.3.2 分析构建设计类 7
3.3.3 分析构建状态图 8
3.3.4 分析构建时序图 9
3.4 系统总体设计 10
3.4.1 系统总体架构 10
3.4.2 功能模块设计 10
3.4.3 数据库设计 12
*好棒文|www.hbsrm.com +Q: ¥351916072$
/> 4 软件功能实现 13
4.1 软件主界面 13
4.2 用户注册及登陆功能 14
4.3 充值及开通高级会员功能 14
4.4 文字处理及导出功能 15
4.5 词云参数设置、生成及保存功能 17
4.6 高级词云功能 18
5 软件测试 20
5.1 测试目的 20
5.2 测试过程 20
5.3 测试结果 21
6 总结与展望 21
致谢 21
参考文献 22
词云图生成工具的设计和开发
引言
引言 在当今社会,人们接收的信息越来越丰富,对于种类繁多的信息,人们容易陷入盲区。人们无法回避地面临着对数据的处理、分类和理解等问题。自然语言分析技术应运而生,它能从冗长的文本中提取出重要信息,而这些提取出的信息应该以什么样的形式组织起来,才更能引起人们的注意,便于人们理解,成为了一个不小的问题。 “词云”作为一个新出现的观点为解决这个问题提供了一条可行的途径[1]。所谓词云,就是借助分词技术,从段落中提取关键词,并统计词频,再用这些词语组成一张图片。由清华大学计算机系自然语言分析实验室开发的中文“词云”就像一把打开数据之门的钥匙——十万字的文本,“读懂”只需几秒钟,还能飞快生成“趋势化、可视化”的图表。这样做极大地加快了人们接收信息的速度,并且,这些富有艺术感的词云图让人们更乐于浏览、传播信息。
1 选题背景
1.1 问题的提出
目前,市面上已经有一些词云图的制作工具,其中大多是是外国在线制作器,如:Wordle、TagCloud、Tagul、ABCya、ToCloud。虽然对于英文段落,它们能很好地生成一张词云,但它们的受益群众局限在使用英语的人群,即这些软件没有中文分词功能。如果上传中文段落,它们仅能做到“分句”的效果,生成的最终图片由大量长句组成,不能称之为“词”云。
国内的词云图生成软件则处在刚起步阶段,目前已知的有:ImageChef、图悦、易词云。与国外相比,这些软件在功能上有所限制,生成的图片效果也有不理想的时候,有的软件仅提供几个简单图形供用户使用,多样性也许不能满足用户需求。
面对上述问题,本文设计并开发一款支持中文分词并可自定义上传图片的词云图生成软件。
1.2 国内外研究状况
1.2.1 国外研究状况
想要制作词云,就不得不提到分词技术,这项技术属于自然语言处理(Natural Language Processing,NLP)的研究领域,作为一门比较新颖的学科,也许大家会比较陌生,实际上它不单单是一门语言学,还包含了计算机科学,也就是说,自然语言处理技术是二者合作发展出来的新学科,具有很高的意义和价值[3]。
从字面意思上和广义上来看,自然语言在研究我们人类平常生活中所使用的语言,这属于语言学,但自然语言处理比起语言学,更多地去结合了计算机,研究人和计算机之间的“交流”,它试图将语言通信技术加载到计算机系统上,实现新的技术。因此,自然语言处理很快就被人工智能青睐了,它的理论和方法或许可以实现人类与机器人之间的交流,这是人工智能所期待的功能,也是对我们而言很实用的技术[4]。
由于“词云”这个概念最早由外国提出,因此它最初被用来处理英文文章。众所周知,在一句英文中,我们可以根据空格来区分各个单词,简单明确,计算词频较为容易,制作词云图的时候就相对方便。英文分词大致有三步:
(1)根据标点符号(包括空格)把句子切成单词。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1647.html