网络社区用户评论的智能获取与筛选系统(源码)【字数:15579】

摘 要关键词 评论;爬虫;LDA;TF-IDF;热点话题人们对文本信息处理的研究从很早之前就已经开始了,Krulwich 和Burkey 使用了启发式规则来发现文档中重要的词和短语。这些启发式规则主要是依据格式和简单结构的特点来抽取关键词。Turney与Witten分别开发了GenEx系统和KEA系统 ,这两个系统在关键词抽取的发展史上具有非常重要的意义。他们首次利用有监督的机器学习的方法来训练已标注的关键词的语料,然后训练出关键词并通过这些关键词抽取模型对未标注关键词的文档进行关键词抽取,此方法在准确率与召回率上都超过了前人的研究成果。Salton 提出了TF- IDF算法。此后Salton 多次论证TF-IDF 公式在信息检索中的有效性。词频 (TF) 是一词语在文件中出现的次数除以该文件的总词语数。逆向文件频率 (inverse document frequency,IDF) 由文件集内所有文件的数目除以包含该词语的文件的数目加一(防止分母为零即没有文档包含该词),再将得到的结果取对数得到。在国内,刘远超和王晓龙等人利用粗集理论来分析关键词短语的构成规则,将分析出的规则用来指导关键词的自动抽取,避免了抽取一些错误的搭配,从而提高了系统的性能,使抽取结果更加符合人们的习惯。任克强和赵光甫等人提出以带权语言网络来表征HTML标记对网页文本的影响,给出了综合介数指标与紧密度指标的词语中心度度量方法,实现了网页关键词的抽取算法,表现出良好的抽取效果以及可解释性。马亮和何婷婷等人采用话题相关性特征和查询相关性特征线性组合的方法来得到关键词的权重[6]。
目 录
第一章 绪 论 1
1.1 研究背景及意义 1
1.2 研究现状 1
1.3 系统可行性分析 2
第二章 LDA模型和TFIDF算法原理 4
2.1 LDA模型 4
2.1.1 LDA文档生成过程 4
2.1.2 LDA概率模型 5
2.2 TFIDF算法 8
第三章 相关技术和开发工具 10
3.1 开发工具简介 10
3.1.1 Eclipse开发工具简介 10
3.1.2 数据库MySql简介 10 *好棒文|www.hbsrm.com +Q: &351916072& 

3.1.3 java swing简介 11
3.2技术介绍 11
3.2.1 Ajax技术 11
3.2.2 爬虫技术 13
3.2.3 分词技术 13
3.2.4余弦相似度 14
第四章 系统功能的设计与实现 17
4.1 系统总体设计 17
4.2 智能获取评论 17
4.3 评论的预处理和存储 20
4.4 评论分析与筛选 22
4.4.1 LDA模型实现 22
4.4.2 TFIDF算法实现 24
4.5 系统界面的实现 27
第五章 系统测试 31
5.1系统测试目的与意义 31
5.2 测试的方法 31
5.3 系统测试 31
5.3.1 爬虫测试 31
5.3.2 LDA模型测试 32
5.3.3 TFIDF测试 34
5.4 测试结果分析 36
结束语 37
致 谢 38
参 考 文 献 39
第一章 绪 论
1.1 研究背景及意义
Web2.0的到来,网络更加强调用户的参与,用户主导着信息的发布权,随着网络技术的快速发展,互联网已经成为人们日常生活中获取信息和发布信息的重要平台,再加上中国的网民越来越多,许多人都会在网上发表自己的意见或与其他网民讨论,因此网上的每个实体基本上都有大量的评论,由于用户可以使用任意不被禁用的词汇来发表评论,导致这些评论存有大量的冗余和不完备,很难从这些评论中找到自己想要的信息。
评论的智能获取与筛选系统是利用爬虫获得网上的评论,这样可以对具体的信息进行分析,LDA模型或TFIDF算法可以对大量冗余的评论进行分析,挖掘出隐藏的话题,了解网民讨论的话题热点,从而可以分析出很多有用的信息,对这些信息进行分析,可以了解到社会各个领域大家所关心的话题,一方面有助于了解当前社会上的重要资讯和关注焦点,另一方面有助于企业了解用户的偏好,改进用户的体验,提高自己的竞争力。
1.2 研究现状
人们对文本信息处理的研究从很早之前就已经开始了,Krulwich 和Burkey 使用了启发式规则来发现文档中重要的词和短语。这些启发式规则主要是依据格式和简单结构的特点来抽取关键词。Turney与Witten分别开发了GenEx系统和KEA系统 ,这两个系统在关键词抽取的发展史上具有非常重要的意义。他们首次利用有监督的机器学习的方法来训练已标注的关键词的语料,然后训练出关键词并通过这些关键词抽取模型对未标注关键词的文档进行关键词抽取,此方法在准确率与召回率上都超过了前人的研究成果。Salton 提出了TF IDF算法。此后Salton 多次论证TFIDF 公式在信息检索中的有效性。词频 (TF) 是一词语在文件中出现的次数除以该文件的总词语数。逆向文件频率 (inverse document frequency,IDF) 由文件集内所有文件的数目除以包含该词语的文件的数目加一(防止分母为零即没有文档包含该词),再将得到的结果取对数得到。
在国内,刘远超和王晓龙等人利用粗集理论来分析关键词短语的构成规则,将分析出的规则用来指导关键词的自动抽取,避免了抽取一些错误的搭配,从而提高了系统的性能,使抽取结果更加符合人们的习惯。任克强和赵光甫等人提出以带权语言网络来表征HTML标记对网页文本的影响,给出了综合介数指标与紧密度指标的词语中心度度量方法,实现了网页关键词的抽取算法,表现出良好的抽取效果以及可解释性。马亮和何婷婷等人采用话题相关性特征和查询相关性特征线性组合的方法来得到关键词的权重[6]。
1.3 系统可行性分析
系统的可行性分析是每个系统开发前必不可少的步骤,开发一个系统可能会受到时间和资源等方面的一些限制,在未进行系统可行性分析前就开发系统,可能会增大项目的开发风险,人力、物力和财力的浪费,拖慢系统的开发进度,甚至不能完成系统的开发。因此在本系统开发前需要做可行性分析,下面从经济、技术、运行环境和法律这四个方面对系统进行分析。
本系统是对网上的数据进行爬取并对获得的数据进行分析。主要是针对评论这一部分,因此系统不是很大。在经济方面,由于我是使用eclipse和MySql工具对系统进行开发的,这些工具都是免费开源的,直接下载就可以使用了,基本上没什么成本,因此经济方面是可行的。从技术上来说,在大三时学过java,java是一种面向对象的编程语言[13],简单易学并且灵活方便。我自己也自学了JAVAEE,对JAVAWEB也是比较了解,所以了解网站的运行过程,可以使用爬虫获得网页上的一些数据。分词技术和概率主题模型技术已经比较成熟,网上有很多教程,也可以向学校读研的师兄请教学习。数据库方面学校也有开过课程,对于数据库的设计和操作也没什么问题,而且本系统数据库的设计也比较简单,综上,技术上没什么问题。运行环境方面,由于需要对网页信息进行爬取,所以需要电脑有网络连接和浏览器。由于网络的普及,基本上每台电脑都满足要求。本系统使用java写的前端,所以电脑还要支持java运行环境,这个只要到java官网下载安装一下JDK就可以了,网络上有很多教程,所以实现起来也比较简单,因此运行环境方面也是可行的。法律方面,本系统是自行开发的一个小系统,开发环境、开发的数据库和开发使用的一些技术都是开源的,用的评论数据也都是网络上公开的且允许获取的信息,不会侵犯他人的版权问题,因此在法律方面也是可行的。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/669.html

好棒文