影评信息特征词提取与聚类分析(源码)
【】 随着互联网的飞速发展,信息化技术已进入了人类生活中的各个领域,使得互联网的数据量呈指数增长,文本分析和数据可视化越来越重要。提出了一套详细的影评信息爬取、特征词提取以及文本聚类的解决方案。在Linux操作系统中开发,采用Python语言、MySQL开源数据库,通过爬虫技术抓取数据,进行基于TF-IDF算法的特征词提取,最后使用K-Means算法进行电影信息聚类,数据可视化使用Echarts。整个系统使用Django作为Web开发的框架。前端使用HTML+CSS+JavaScript+jquery设计页面。实现数据采集、数据分析、数据聚类和数据可视化等功能。【】 1
目录
一、引言 1
(一)课题背景 1
(二)课题意义 1
二、系统概述 1
(一)环境简介 1
(二)数据库设计 1
1.数据库分析 2
2.数据库逻辑结构设计 2
三、爬虫设计与实现 3
(一)技术分析 3
(二)实现过程 4
1.搭建容器 4
2.编写下载器中间件 5
3.编写爬虫逻辑 6
4.配置容器管道 9
四、特征词提取与文本聚类的设计与实现 10
(一)技术分析 10
1. 文本分词 10
2. 特征词提取算法 10
3. 基于KMeans算法的文本聚类 11
(二)实现过程 11
1.读取文本 12
2.配置分词库 12
4.文本聚类 13
(三) TFIDF与TextRank算法效果与性能对比 14
1. TFIDF与TextRank算法性能比较 14
2. TFIDF与TextRank算法效果比较 15
(四) 基于Kmeans算法文本聚类的实现效果 16
五、数据可视化 17
(一)技术分析 17
(二) 基于Django的Web开发 17
(三)地图分布 18
(四)用户评论与注册数量统计 19
1 *好棒文|www.hbsrm.com +Q: ¥351916072¥
.用户评论与注册数量年统计 19
2.用户评论与注册数量月统计 20
3.用户评论与注册数量周统计 21
4.用户评论小时统计 22
(五)电影受欢迎度统计 23
六、总结 24
参考文献 25
致谢 26
一、引言
(一)课题背景
近几年来,急速发展的计算机信息化和普及应用,使得各种行业所生产的数据成倍增长,网络舆情表达快捷、信息多元,具备传统媒体无法比拟的优势。网络舆情发展快速对社会影响力巨大。如何有效的提取并利用这些数据信息成为巨大的挑战。
(二)课题意义
随着计算机技术的发展,应用行业也越来越多,所产生的数据越来越大,帮助人们从中获取到真正有价值的信息。
人脑对视觉信息的处理要比书面信息容易得多。使用图表来总结复杂的数据,可以确保对关系的理解要比那些混乱的报告或电子表格更快。这提供了一种非常清晰的沟通方式,使业务领导者能够更快地理解和处理他们的信息。
(三)开发技术
1、程序开发技术
(1)Python
Python语言具有丰富强大的库。它常被昵称胶水语言,能够把用其他语言制作的各种模块(尤其C/C++)都能很轻松地联结在一起。由于Python在设计上坚持了清晰划一的风格,这使得它成为一门易读、易维护,并且被大量用户所欢迎、用途广泛的语言。
(2)Scapy
Scapy是一个Python程序,它使用户能够发送,嗅探和剖析并伪造网络数据包。该功能允许构建可以探测,扫描或攻击网络的工具。换句话说,Scapy是一个功能强大的交互式数据包处理程序。它能够伪造或解码大量协议的数据包,在线上发送,捕获它们,匹配请求和回复等等。
(3)Django
Django是一个开源、简洁、安全、Python Web框架,鼓励快速开发和干净实用的设计。它可以迅速帮助开发人员尽可能快地从概念到完成应用程序。包含了许多可以用于常见的WEB开发任务的额外功能。严肃对待安全问题,帮助开发者避免许多常见的安全问题,例如SQL注入,跨站点脚本,跨站点请求伪造和clickjacking等。
二、系统概述
(一)环境简介
开发系统:Ubuntu 17.10。
开发平台:Pycharm、Visual Studio Code。
编程语言:Python。
数据库:Mysql。
软件框架:Scrapy、Django。
(二)数据库设计
1.数据库分析
电影信息表:包括的数据项有id、名称、图片、分类、简介、导演、编剧、演员、语言、片长、电影路径。
电影评论表:包括的数据项有id、名称、评论时间、电影的赞、评论、评论的赞、评论的踩、评论的回应、用户的名称、用户的创建时间、用户的地址。
2.数据库逻辑结构设计
(1)film_information表
表21 film_information表
字段名
类型
长度
约束
备注
_id
Int
11
NOT NULL
主键自增
name
Varchar
100
NO
电影名称
img
varchar
100
NO
图片地址
ftype
varchar
100
NO
电影类型
synopsis
varchar
5000
NO
电影简介
director
varchar
150
NO
电影导演
writer
varchar
150
NO
电影编剧
actor
varchar
450
NO
电影演员
language
varchar
110
NO
电影语言
minutes
varchar
目录
一、引言 1
(一)课题背景 1
(二)课题意义 1
二、系统概述 1
(一)环境简介 1
(二)数据库设计 1
1.数据库分析 2
2.数据库逻辑结构设计 2
三、爬虫设计与实现 3
(一)技术分析 3
(二)实现过程 4
1.搭建容器 4
2.编写下载器中间件 5
3.编写爬虫逻辑 6
4.配置容器管道 9
四、特征词提取与文本聚类的设计与实现 10
(一)技术分析 10
1. 文本分词 10
2. 特征词提取算法 10
3. 基于KMeans算法的文本聚类 11
(二)实现过程 11
1.读取文本 12
2.配置分词库 12
4.文本聚类 13
(三) TFIDF与TextRank算法效果与性能对比 14
1. TFIDF与TextRank算法性能比较 14
2. TFIDF与TextRank算法效果比较 15
(四) 基于Kmeans算法文本聚类的实现效果 16
五、数据可视化 17
(一)技术分析 17
(二) 基于Django的Web开发 17
(三)地图分布 18
(四)用户评论与注册数量统计 19
1 *好棒文|www.hbsrm.com +Q: ¥351916072¥
.用户评论与注册数量年统计 19
2.用户评论与注册数量月统计 20
3.用户评论与注册数量周统计 21
4.用户评论小时统计 22
(五)电影受欢迎度统计 23
六、总结 24
参考文献 25
致谢 26
一、引言
(一)课题背景
近几年来,急速发展的计算机信息化和普及应用,使得各种行业所生产的数据成倍增长,网络舆情表达快捷、信息多元,具备传统媒体无法比拟的优势。网络舆情发展快速对社会影响力巨大。如何有效的提取并利用这些数据信息成为巨大的挑战。
(二)课题意义
随着计算机技术的发展,应用行业也越来越多,所产生的数据越来越大,帮助人们从中获取到真正有价值的信息。
人脑对视觉信息的处理要比书面信息容易得多。使用图表来总结复杂的数据,可以确保对关系的理解要比那些混乱的报告或电子表格更快。这提供了一种非常清晰的沟通方式,使业务领导者能够更快地理解和处理他们的信息。
(三)开发技术
1、程序开发技术
(1)Python
Python语言具有丰富强大的库。它常被昵称胶水语言,能够把用其他语言制作的各种模块(尤其C/C++)都能很轻松地联结在一起。由于Python在设计上坚持了清晰划一的风格,这使得它成为一门易读、易维护,并且被大量用户所欢迎、用途广泛的语言。
(2)Scapy
Scapy是一个Python程序,它使用户能够发送,嗅探和剖析并伪造网络数据包。该功能允许构建可以探测,扫描或攻击网络的工具。换句话说,Scapy是一个功能强大的交互式数据包处理程序。它能够伪造或解码大量协议的数据包,在线上发送,捕获它们,匹配请求和回复等等。
(3)Django
Django是一个开源、简洁、安全、Python Web框架,鼓励快速开发和干净实用的设计。它可以迅速帮助开发人员尽可能快地从概念到完成应用程序。包含了许多可以用于常见的WEB开发任务的额外功能。严肃对待安全问题,帮助开发者避免许多常见的安全问题,例如SQL注入,跨站点脚本,跨站点请求伪造和clickjacking等。
二、系统概述
(一)环境简介
开发系统:Ubuntu 17.10。
开发平台:Pycharm、Visual Studio Code。
编程语言:Python。
数据库:Mysql。
软件框架:Scrapy、Django。
(二)数据库设计
1.数据库分析
电影信息表:包括的数据项有id、名称、图片、分类、简介、导演、编剧、演员、语言、片长、电影路径。
电影评论表:包括的数据项有id、名称、评论时间、电影的赞、评论、评论的赞、评论的踩、评论的回应、用户的名称、用户的创建时间、用户的地址。
2.数据库逻辑结构设计
(1)film_information表
表21 film_information表
字段名
类型
长度
约束
备注
_id
Int
11
NOT NULL
主键自增
name
Varchar
100
NO
电影名称
img
varchar
100
NO
图片地址
ftype
varchar
100
NO
电影类型
synopsis
varchar
5000
NO
电影简介
director
varchar
150
NO
电影导演
writer
varchar
150
NO
电影编剧
actor
varchar
450
NO
电影演员
language
varchar
110
NO
电影语言
minutes
varchar
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/1212.html