聚类算法实现老年人娱乐方式分析与预测(附件)
摘 要人口老龄化的逐年加重,老年人的养老问题成为社会关注的热点话题。当今社会,已经不是那种仅仅满足衣食住行生活必需的时代,而是如何丰富业余生活,让生活过的更有趣味。目前为止我国对于老年人的行为分析相对较少,缺少这方面的研究成果,但是,在人口老龄化逐年加剧的今天,老年人的生活更应该引起我们的注意。本文就是针对老年人的娱乐方式进行分析,了解老年人的娱乐方式,通过分析获取在娱乐生活方面有什么需求,根据分析的结论为老年人在娱乐生活方面提供解决方案。本次毕业设计爬取了关于老年人的贴吧和养生之道网的内容。通过jieba分词实现文本分词、停用词过滤、语料库建立。建立了K-means聚类算法分析模型和Apriori关联规则分析模型,对老年人的娱乐方式进行分析,并分析出具有强关联规则的集合。通过matplotlib绘图库和wordcloud库实现数据的可视化,更加鲜明的看出当下老年人最喜欢的娱乐方式有书法、绘画、太极拳等。本次毕业设计可以很好的说明老年人的娱乐方式存在一定的关联性和一定的聚类特征。通过本次分析可以得出老年人娱乐方式的关联性,为老年人推荐适合的娱乐方式,并试图建立老年人兴趣部落,让更多的老年人在一起互相交流,让晚年生活更加精彩。
Keywords:Entertainment for the aged,wordcloud,text clustering,correlation analysis目 录
第1章 前言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 1
1.3 研究的目的及意义 2
1.3.1研究目的 2
1.3.2研究意义 2
1.4 全文组织结构 2
第2章 基于python爬虫的数据收集 4
2.1 简要介绍python爬虫 4
2.2 利用python爬虫实现数据收集 4
第3章 数据预处理 5
3.1 文本分词 5
3.2停用词过滤 5
3.3 词频统计 6
3.4TFIDF值 6
3.4.1TFIDF值计算原理 6
*好棒文|www.hbsrm.com +Q: ^351916072^
3.4.2计算TFIDF值 6
第4章 数据挖掘与可视化 7
4.1 简要分析我国老龄人口与老龄人口抚养比 7
4.2 Kmeans 算法实现文本聚类 8
4.2.1聚类算法 8
4.2.2 Kmeans 算法 8
4.2.3 利用PCA进行降维 9
4.2.4 利用Kmeans 算法实现数据聚类 10
4.3 Apriori算法实现关联分析 11
4.3.1 关联分析 11
4.3.2 Apriori算法 11
4.3.3 利用Apriori算法实现关联规则分析 12
4.4 Matplotlib可视化库实现数据可视化 12
4.4.1Matplotlib可视化库 12
4.4.2 利用Matplotlib可视化库实现数据可视化 12
第5章 总结与展望 14
5.1总结 14
5.2展望 14
附录 15
参考文献 17
致谢 19
第1章 前言
1.1 研究背景
互联网的发展,渗透在我们生活的方方面面,带来便利的同时,也存在着一定的风险和威胁,这一问题在老年人使用者中显得尤为突出。既要发现互联网满足人们需求带来便利的好处,也要避免威胁的发生[1]。就目前对互联网用户行为分析和APP市场分析研究主要是针对年轻人或者对所有智能手机应用用户进行分析,较少针对老年人这一特殊群体进行分析。本次毕业设计主要针对老年人这一特殊群体,拟实现对老年人以娱乐方式为主的需求分析与预测,分析出由性别、文化程度、地区等因素所决定的老年人不同的兴趣取向,预测出互联网对老年人的威胁和不便以及老年人可能出现的心理和身体健康问题,为设计符合老年人需要的互联网服务做出贡献。
1.2 国内外研究现状
1.2.1 国外研究现状
数据挖掘技术在国外比较先进,在此之前许多国外的专家利用数据挖掘技术来研究人们的心理问题。由于老年人长期缺少陪伴,可能出现一些心理问题。利用相关的知识进行分析,得出一种快速、自动化的筛选程序,用于识别处于危险中的老年人,以便尽早转诊到心理咨询和治疗。用python对catboost、logistic回归、naive bayes、random forest、支持向量机等五种机器学习分类器进行了评估,实现最佳分类器用于心理健康疾病的筛查[2]。
1.2.2 国内研究现状
数据挖掘在我国起步相对于国外较晚,相关的基本框架形成于90年代。随着科技的不断发展,我国数据挖掘方面也得到了发展,应用于日常生活、工业生产、商业服务等领域[3]。数据挖掘在社会生活中发挥着巨大的作用,利用海量的、不同存储形式的数据资料,开发挖掘出其中隐藏的价值[4]。
老龄人口的不断增长,使世界各地的抚养负担加重,成为一个严重的社会问题,世界各地的人们都在为改善人口老龄化努力着。除了影响经济、社会的发展外,如何满足老年人养老需求也成为一个急需解决的问题[5]。在互联网、数据挖掘技术不断发展的当今社会,为老年人提供更好地个性化的养老体验,针对老年人日常需求,许多专家学者提出了科学的研究。在过去的研究表明,已满足的需求包括住宿居家、日常技能、食物穿衣。然而,娱乐活动、亲朋陪伴、心理健康成为当下最迫切的需求[6]。
对于我国的一些研究者,通过老年人互联网使用行为模式进行数据挖掘[7]。构建关联规则模型进行关联规则分析,对隐藏在数据背后的反映老年人互联网使用行为做出了一定分析。但也存在一定的缺陷,没有进一步的进行验证研究结果的有效性[8]。
我们的国家已经进入老龄化社会,老年人需要得到更多的关注,这是社会的趋势。同时,社会又进入了互联网时代,老年人需要跟上时代,这是发展的必然[9]。人口老龄化的逐年加重,对于社会的养老需求也随之提高,这就要求我们尽早尽快的改善养老模式。单一的养老模式已经不能满足所有老人的需求,必须深入分析老年人群体内部,了解在互联网时代下的老年人在信息需求、娱乐方式、精神需求、健康养生等方面的新需求,提供个性化的养老体验[10]。互联网的出现在一定程度上满足了老年人上述的需求,尤其是智能手机的普及,丰富了老年人的晚年生活,拉近了与子女间的距离[11]。
1.3 研究的目的及意义
1.3.1 研究目的
老龄化逐渐加剧的今天,老年人的日常生活受到越来越多的人关注,互联网的介入又丰富了老年人的晚年生活。通过对老年人智能手机应用使用行为数据的分析,分析出当下老年人在日常生活中交通出行、文化娱乐、健康养生等方面的需求,并分析出互联网对老年人存在的隐患,预测出老年人可能发生的行为走向以及预测出网络可能给老年人带来的不便和威胁,并提出建议防止不便和威胁的发生,为老年人的晚年营造一个舒适愉快的环境。
Keywords:Entertainment for the aged,wordcloud,text clustering,correlation analysis目 录
第1章 前言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.2.1国外研究现状 1
1.2.2国内研究现状 1
1.3 研究的目的及意义 2
1.3.1研究目的 2
1.3.2研究意义 2
1.4 全文组织结构 2
第2章 基于python爬虫的数据收集 4
2.1 简要介绍python爬虫 4
2.2 利用python爬虫实现数据收集 4
第3章 数据预处理 5
3.1 文本分词 5
3.2停用词过滤 5
3.3 词频统计 6
3.4TFIDF值 6
3.4.1TFIDF值计算原理 6
*好棒文|www.hbsrm.com +Q: ^351916072^
3.4.2计算TFIDF值 6
第4章 数据挖掘与可视化 7
4.1 简要分析我国老龄人口与老龄人口抚养比 7
4.2 Kmeans 算法实现文本聚类 8
4.2.1聚类算法 8
4.2.2 Kmeans 算法 8
4.2.3 利用PCA进行降维 9
4.2.4 利用Kmeans 算法实现数据聚类 10
4.3 Apriori算法实现关联分析 11
4.3.1 关联分析 11
4.3.2 Apriori算法 11
4.3.3 利用Apriori算法实现关联规则分析 12
4.4 Matplotlib可视化库实现数据可视化 12
4.4.1Matplotlib可视化库 12
4.4.2 利用Matplotlib可视化库实现数据可视化 12
第5章 总结与展望 14
5.1总结 14
5.2展望 14
附录 15
参考文献 17
致谢 19
第1章 前言
1.1 研究背景
互联网的发展,渗透在我们生活的方方面面,带来便利的同时,也存在着一定的风险和威胁,这一问题在老年人使用者中显得尤为突出。既要发现互联网满足人们需求带来便利的好处,也要避免威胁的发生[1]。就目前对互联网用户行为分析和APP市场分析研究主要是针对年轻人或者对所有智能手机应用用户进行分析,较少针对老年人这一特殊群体进行分析。本次毕业设计主要针对老年人这一特殊群体,拟实现对老年人以娱乐方式为主的需求分析与预测,分析出由性别、文化程度、地区等因素所决定的老年人不同的兴趣取向,预测出互联网对老年人的威胁和不便以及老年人可能出现的心理和身体健康问题,为设计符合老年人需要的互联网服务做出贡献。
1.2 国内外研究现状
1.2.1 国外研究现状
数据挖掘技术在国外比较先进,在此之前许多国外的专家利用数据挖掘技术来研究人们的心理问题。由于老年人长期缺少陪伴,可能出现一些心理问题。利用相关的知识进行分析,得出一种快速、自动化的筛选程序,用于识别处于危险中的老年人,以便尽早转诊到心理咨询和治疗。用python对catboost、logistic回归、naive bayes、random forest、支持向量机等五种机器学习分类器进行了评估,实现最佳分类器用于心理健康疾病的筛查[2]。
1.2.2 国内研究现状
数据挖掘在我国起步相对于国外较晚,相关的基本框架形成于90年代。随着科技的不断发展,我国数据挖掘方面也得到了发展,应用于日常生活、工业生产、商业服务等领域[3]。数据挖掘在社会生活中发挥着巨大的作用,利用海量的、不同存储形式的数据资料,开发挖掘出其中隐藏的价值[4]。
老龄人口的不断增长,使世界各地的抚养负担加重,成为一个严重的社会问题,世界各地的人们都在为改善人口老龄化努力着。除了影响经济、社会的发展外,如何满足老年人养老需求也成为一个急需解决的问题[5]。在互联网、数据挖掘技术不断发展的当今社会,为老年人提供更好地个性化的养老体验,针对老年人日常需求,许多专家学者提出了科学的研究。在过去的研究表明,已满足的需求包括住宿居家、日常技能、食物穿衣。然而,娱乐活动、亲朋陪伴、心理健康成为当下最迫切的需求[6]。
对于我国的一些研究者,通过老年人互联网使用行为模式进行数据挖掘[7]。构建关联规则模型进行关联规则分析,对隐藏在数据背后的反映老年人互联网使用行为做出了一定分析。但也存在一定的缺陷,没有进一步的进行验证研究结果的有效性[8]。
我们的国家已经进入老龄化社会,老年人需要得到更多的关注,这是社会的趋势。同时,社会又进入了互联网时代,老年人需要跟上时代,这是发展的必然[9]。人口老龄化的逐年加重,对于社会的养老需求也随之提高,这就要求我们尽早尽快的改善养老模式。单一的养老模式已经不能满足所有老人的需求,必须深入分析老年人群体内部,了解在互联网时代下的老年人在信息需求、娱乐方式、精神需求、健康养生等方面的新需求,提供个性化的养老体验[10]。互联网的出现在一定程度上满足了老年人上述的需求,尤其是智能手机的普及,丰富了老年人的晚年生活,拉近了与子女间的距离[11]。
1.3 研究的目的及意义
1.3.1 研究目的
老龄化逐渐加剧的今天,老年人的日常生活受到越来越多的人关注,互联网的介入又丰富了老年人的晚年生活。通过对老年人智能手机应用使用行为数据的分析,分析出当下老年人在日常生活中交通出行、文化娱乐、健康养生等方面的需求,并分析出互联网对老年人存在的隐患,预测出老年人可能发生的行为走向以及预测出网络可能给老年人带来的不便和威胁,并提出建议防止不便和威胁的发生,为老年人的晚年营造一个舒适愉快的环境。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/255.html