全连接神经网络在糖尿病预测方面的应用研究【字数:14138】
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特征,接近一半的患者有家族遗传史。近年来,中国成为世界糖尿病患者的第一大国,患者人数高达1.1亿人,且患病比例还在不断地上升。在这种情况之下,通过先进的技术手段做好糖尿病的前期预防工作、对普通百姓的患病几率进行评估以及对高危人群患病几率进行预测,从而达到预防的作用。本实验主要针对以下三个部分展开第一点是对一些糖尿病的参数进行分析处理。影响糖尿病的因素有很多,例如血糖、血压、BMI等等,而且不同的年龄段的指标数值又有着很大的差异性,但是收集的数据集中又有些数值是无法使用的,比如某些不符合实际的数值或者是为零的数字,都需要排除在外,进行数据的筛选。第二点就是预测模型的设计与分析。通过多种分类算法对糖尿病的数据集进行预测分析,来判断之后患有糖尿病的可能性。主要的算法有决策树、随机森林、Logistic回归以及神经网络等。第三点,把数据结果可视化分析,采用数形结合的方式,观察模型的优劣,对模型进行调参,改进。
目录
1.绪论 1
1.1 课题研究背景 1
1.2 课题研究目的 1
1.3 课题的研究现状 1
1.4 本文的主要工作 2
2.算法原理与分析 4
2.1 Logistic回归 4
2.2 决策树算法 4
2.3 随机森林算法 5
2.4 SVM算法 5
2.5 多层感知机 6
2.6 BP神经网络 6
3.可行性分析 8
3.1 技术可行性 8
3.2 操作可行性 8
3.3 经济可行性 8
3.4 社会可行性 8
4.实验设计 9
4.1 数据分析及理解 9
4.2 数据预处理 9
4.3 BP神经网络设计 16
4.4 sklearn机器学习库模型调用 19
5.实验结果与分析 22
6.结论与展望 26
6.1结论 26
6.2不足之处及未来展望 26
6.3本研究对各方面的影响 27
参考文献 28 *好棒文|www.hbsrm.com +Q: *351916072*
致谢 29
1.绪论
1.1 课题研究背景
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特征,接近一半的患者有家族遗传史。国际糖尿病联盟的最新数据显示2015年在全世界范围内糖尿病患病人数近4.15亿人,预计到2040年将达到6.42亿人,这意味着未来每十个成年人就有一个人是患病的,这个惊人的数字毫无疑问要引起高度的重视。近年来,中国成为世界糖尿病患者的第一大国,患者人数高达1.1亿人,且患病比例在不断地上升。然而我国糖尿病患者的知晓率只有30%左右,其中又仅有25.8%左右的患者得到了有效的治疗,治疗的患者中仅有39.7%左右的患者得到了良好的控制。在城市和乡村,上述数据存在显著的差异,且不同的性别之间差异也存在很大的差距。
综上所述,在这种情况之下,通过先进的技术手段做好糖尿病预测患者的前期预防工作、对普通百姓的患病几率进行评估以及对高危人群患病几率进行预测,从而达到预防的作用。
1.2 课题研究目的
人工智能在近两年来不断兴起,以及在技术上的发展和进步,在很多行业领域有越来越多的人工智能产品的出现,大量的机器学习算法在医疗健康领域不断的出现。机器学习是研究如何使用机器来模拟人类活动的一门学科。它可以从过去的“经历”和“经验”中去学习,对数据进行建模,从而对新的数据进行预测。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的每一个领域。
随着人们的生活水平的不断提高,人们对于健康的需求日益的强烈,所以要对普通百姓的患病几率进行评估,对高危人群患病几率进行预测,从而达到预防作用。
1.3 课题的研究现状
1.3.1国内外研究现状
生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活。与此同时,基因遗传史无前例的用一种全新的视角解读生命和探究疾病本质。数据挖掘能够处理分析海量医疗健康数据,通过认知分析获取信息,服务于政府、健康医疗机构、制药企业及患者。糖尿病作为一种常见慢性疾病,目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。借助于数据挖掘对糖尿病遗传数据的研究,希望用数据挖掘的方法和思想处理、分析、解读和应用糖尿病相关大数据,通过设计高精度,高效,解释性强的算法来挑战糖尿病精准预测这一难题,为精准医疗提供有力的技术支撑,为糖尿病的深入研究提供新思路。
对于糖尿病的预测,国内外专家很早就开始进行了研究。运用新的检测技术,一方面提高了检测手段和检测方法,另一方面通过对许多影响因子的全方位分析可以发现出一些被人们忽略掉的因素。
从目前糖尿病的研究模型来看,大致可以分为三种。第一种就是对患者的相关并发症模型进行研究,可以预测患者未来很长一段时间出现并发症的概率。第二类是糖尿病的筛查模型,是对广泛的人群进行普查然后进行筛选,对筛选的人做相关的调查。第三类是发病风险评估模型,用来发现高危人群。这类模型会将很多的危险因素加进来,通过不同的指标进行打分做出相应预警。近十几年来,这类模型的使用很多,可以提前采取干预措施来帮助未来患者减少风险,对公共卫生具有重大的意义。
伴随着神经网络的爆发式涌现,也有越来越多的学者采用人工神经网络来进行研究。人工神经网络是上世纪80年代基于大脑和神经系统建立起来的模型,特别适合处理一些非线性问题,在医疗上,广泛的运用在肿瘤、心脏病以及糖尿病等慢性病的预测上。我国的学者用神经网络来研究多因素对糖尿病的影响。有的研究人员认为神经网络可以解决单因素和多因素的回归缺点。有的研究人员用饮食、压力以及胰岛素使用情况来预测血糖水平,用神经网络来预测胰岛素的使用量。
1.3.2 文献评述
通过对文献的分析研究,发现如下:
对于糖尿病预测模型的构建使用的参数有如下:年龄、性别、血压、BMI以及妊娠期等等。使用的机器学习有Logistic回归、决策树、随机森林、SVM以及神经网络等。但是也发现这些模型存在的不足以及需要后续深入研究的问题。目前还没有一种最公认有效的方法可以准确预测,现在的研究方法还是主要以常见的回归方法为主。
目录
1.绪论 1
1.1 课题研究背景 1
1.2 课题研究目的 1
1.3 课题的研究现状 1
1.4 本文的主要工作 2
2.算法原理与分析 4
2.1 Logistic回归 4
2.2 决策树算法 4
2.3 随机森林算法 5
2.4 SVM算法 5
2.5 多层感知机 6
2.6 BP神经网络 6
3.可行性分析 8
3.1 技术可行性 8
3.2 操作可行性 8
3.3 经济可行性 8
3.4 社会可行性 8
4.实验设计 9
4.1 数据分析及理解 9
4.2 数据预处理 9
4.3 BP神经网络设计 16
4.4 sklearn机器学习库模型调用 19
5.实验结果与分析 22
6.结论与展望 26
6.1结论 26
6.2不足之处及未来展望 26
6.3本研究对各方面的影响 27
参考文献 28 *好棒文|www.hbsrm.com +Q: *351916072*
致谢 29
1.绪论
1.1 课题研究背景
糖尿病是一种以高血糖为特征的慢性疾病,且具有明显的家族遗传特征,接近一半的患者有家族遗传史。国际糖尿病联盟的最新数据显示2015年在全世界范围内糖尿病患病人数近4.15亿人,预计到2040年将达到6.42亿人,这意味着未来每十个成年人就有一个人是患病的,这个惊人的数字毫无疑问要引起高度的重视。近年来,中国成为世界糖尿病患者的第一大国,患者人数高达1.1亿人,且患病比例在不断地上升。然而我国糖尿病患者的知晓率只有30%左右,其中又仅有25.8%左右的患者得到了有效的治疗,治疗的患者中仅有39.7%左右的患者得到了良好的控制。在城市和乡村,上述数据存在显著的差异,且不同的性别之间差异也存在很大的差距。
综上所述,在这种情况之下,通过先进的技术手段做好糖尿病预测患者的前期预防工作、对普通百姓的患病几率进行评估以及对高危人群患病几率进行预测,从而达到预防的作用。
1.2 课题研究目的
人工智能在近两年来不断兴起,以及在技术上的发展和进步,在很多行业领域有越来越多的人工智能产品的出现,大量的机器学习算法在医疗健康领域不断的出现。机器学习是研究如何使用机器来模拟人类活动的一门学科。它可以从过去的“经历”和“经验”中去学习,对数据进行建模,从而对新的数据进行预测。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的每一个领域。
随着人们的生活水平的不断提高,人们对于健康的需求日益的强烈,所以要对普通百姓的患病几率进行评估,对高危人群患病几率进行预测,从而达到预防作用。
1.3 课题的研究现状
1.3.1国内外研究现状
生命科学特别是基因科技已经广泛而且深刻影响到每个人的健康生活。与此同时,基因遗传史无前例的用一种全新的视角解读生命和探究疾病本质。数据挖掘能够处理分析海量医疗健康数据,通过认知分析获取信息,服务于政府、健康医疗机构、制药企业及患者。糖尿病作为一种常见慢性疾病,目前无法根治,但却能通过科学有效的干预、预防和治疗,来降低发病率和提高患者的生活质量。借助于数据挖掘对糖尿病遗传数据的研究,希望用数据挖掘的方法和思想处理、分析、解读和应用糖尿病相关大数据,通过设计高精度,高效,解释性强的算法来挑战糖尿病精准预测这一难题,为精准医疗提供有力的技术支撑,为糖尿病的深入研究提供新思路。
对于糖尿病的预测,国内外专家很早就开始进行了研究。运用新的检测技术,一方面提高了检测手段和检测方法,另一方面通过对许多影响因子的全方位分析可以发现出一些被人们忽略掉的因素。
从目前糖尿病的研究模型来看,大致可以分为三种。第一种就是对患者的相关并发症模型进行研究,可以预测患者未来很长一段时间出现并发症的概率。第二类是糖尿病的筛查模型,是对广泛的人群进行普查然后进行筛选,对筛选的人做相关的调查。第三类是发病风险评估模型,用来发现高危人群。这类模型会将很多的危险因素加进来,通过不同的指标进行打分做出相应预警。近十几年来,这类模型的使用很多,可以提前采取干预措施来帮助未来患者减少风险,对公共卫生具有重大的意义。
伴随着神经网络的爆发式涌现,也有越来越多的学者采用人工神经网络来进行研究。人工神经网络是上世纪80年代基于大脑和神经系统建立起来的模型,特别适合处理一些非线性问题,在医疗上,广泛的运用在肿瘤、心脏病以及糖尿病等慢性病的预测上。我国的学者用神经网络来研究多因素对糖尿病的影响。有的研究人员认为神经网络可以解决单因素和多因素的回归缺点。有的研究人员用饮食、压力以及胰岛素使用情况来预测血糖水平,用神经网络来预测胰岛素的使用量。
1.3.2 文献评述
通过对文献的分析研究,发现如下:
对于糖尿病预测模型的构建使用的参数有如下:年龄、性别、血压、BMI以及妊娠期等等。使用的机器学习有Logistic回归、决策树、随机森林、SVM以及神经网络等。但是也发现这些模型存在的不足以及需要后续深入研究的问题。目前还没有一种最公认有效的方法可以准确预测,现在的研究方法还是主要以常见的回归方法为主。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/573.html