随机森林算法的乳腺癌的分析与预测(附件)

摘 要近些年来,在我们国家经济和社会飞速发展的同时,不健康的生活习惯和其他不可避免的一些因素使得癌症的发病率逐年增高。据统计,在我国,每个人都有23.36%的可能性患癌。其中,乳腺癌是对我国女性生命健康造成严重威胁的恶性肿瘤疾病之一,它的发病率位于女性疾病的首位。面对这一严峻的形势,急切需要对乳腺癌发病风险的研究。因此,我们利用机器学习算法对乳腺癌进行分析与预测。本毕业设计对UCI公开乳腺肿瘤数据集进行分析与预测。首先,对数据进行预处理,分析出与乳腺癌发病强相关性的因子,并且以可视化的方式展示结果。然后对逻辑回归、决策树和随机森林算法进行性能评估,训练模型,最后得出一种准确率较高的随机森林算法来实现乳腺癌的预测。通过使用随机森林算法实现对乳腺癌的分析与预测,有效地避免了病人承受不必要的身心压力,降低了乳腺癌的发病率,提高医生诊断的正确率,对乳腺癌的预防和防复发有着重要的作用。
目 录
第1章 前言 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.3 研究目的及意义 1
1.4 全文组织结构 2
第2章 数据采集与处理 3
2.1 数据来源 3
2.2 数据预处理 3
第3章 影响因子相关度分析 5
3.1 问题描述 5
3.2 Matplotlib可视化库介绍 5
3.3 Seaborn可视化库介绍 6
3.4 数据分析和可视化过程 6
3.4.1 计算相关系数并绘制热图 6
3.4.2 可视化结果 10
第4章 建模关键技术 11
4.1 模型介绍及比较 11
4.1.1 Logistic Regression(逻辑回归) 11
4.1.2 Decision Tree(决策树) 12
4.1.3 Random Forest(随机森林) 13
4.1.4 模型比较 15
4.2 算法性能评估方法 15
4.2.1 留出法 16 < *好棒文|www.hbsrm.com +Q: ^351916072^ 
br /> 4.2.2 交叉验证法 16
4.2.3 自助法 16
4.2.4 调节参数 16
4.2.5 性能度量 17
第5章 模型训练与预测 20
5.1 5折交叉验证 20
5.2 模型训练和预测 20
5.3 预测结果分析 23
第6章 总结与展望 25
6.1 总结 25
6.2 展望 25
附 录 26
参考文献 31
致 谢 32
第1章 前言
1.1 研究背景
乳腺癌,一个让人听了胆战心惊的字眼,它正在一步步的逼近我们的生命健康,很多女性为此失去了生命,无法继续自己的美好人生。我们国家虽然不是乳腺癌的高发国家,但是情况也不容乐观[1]。究竟乳腺癌的根本病因是什么,我们还无从下手。所以,能够在发病前根据一些特征很好的预测该女性是否患有乳腺癌对我们来说尤为重要。精准的去预测乳腺癌的良恶性,能够降低乳腺癌的发病率,使更多的女性免遭癌症的折磨。
1.2 国内外研究现状
乳腺癌的发病率已经越来越高,它是导致女性死亡的频发疾病之一[2]。2008年,KDD Cup竞赛运用CAD方法基于乳腺X光片对乳腺癌进行预测,这一技术的使用降低了乳腺癌的发病率,但是仍然没有改变它是导致女性死亡的首位恶性疾病的现状[3]。在乳腺癌治疗方面,国外专家认为筛查和预测是降低乳腺癌发病率的主要手段,他们运用了决策树、逻辑回归等算法对乳腺癌进行分析和预测,但得出的准确率有待提高。在乳腺癌的研究方面,国外专家用钼靶摄影扫描提出了需要治疗的乳腺癌的类型,并且指出哪些患者需要进行这种扫描[4]。另外,这些专家还指出了研究导致乳腺癌发病的危险因素的重要性。目前,相关人员正在对乳腺癌基因和分子生物标志物进行研究,医生也正在尽力提高X线成像的清晰程度和准确率[5]。
在国内,我们国家的专家学者们同样利用机器学习的各种算法以及图像处理技术对患者病情提前诊断,改变了以往医生手工看X光片效率底下的情况[6]。机器学习的应用极其广泛,它是应用计算机语言来对数据进行深度的挖掘和分析。借助机器学习,我国专家完成了对三阴乳腺癌的预测,使癌症预测技术进一步的发展[7]。相继许多专家利用神经网络完成对乳腺癌的预测,后又有学者基于特征选择和数据分类来对乳腺癌进行预测,但这些算法的效率大都不高或者容易存在过拟合的情况。如果能有一种高效率而且不易出现过拟合的算法来对乳腺癌进行分析与预测,那么女性的生命健康就会多一份保障,医生和病人就不会承担巨大的压力。
1.3 研究目的及意义
为了降低乳腺癌的发病率,减轻女性承受病痛的负担,在乳腺癌发病前准确的预测出该女性是否患癌显得至关重要。不仅如此,我们还要知道哪些因素与乳腺癌的发病有着强相关性,从生活上反省哪些细节造成了这些因素,从而在根源上提醒女性远离这些因素[8]。本毕业设计旨在提供一种更加准确高效的模型来预测是否患有乳腺癌,更早的诊断肿瘤是恶性还是良性,让病人不再承担不必要的身体和心理压力,帮助医生快速高效率的做出诊断,有效地避免了医院和患者做出的不必要的医疗成本。
1.4 全文组织结构
本文共分为6章,各章主要内容介绍如下:
第1章 主要介绍了该毕业设计研究的背景和国内外现状以及研究的目的和意义,最后给出全文的组织结构。
第2章 主要介绍数据的来源和数据预处理一系列的操作。
第3章 介绍了Python中的绘图库,分析出与乳腺癌发病的强相关因子并可视化。
第4章 介绍了本毕业设计中建模用到的算法和性能评估方法。
第5章 进行了模型的训练,对测试集进行预测并得出结果。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/254.html

好棒文