高通量健康医学数据的深度挖掘分析方法研究

摘 要近年来,随着医疗行业信息化的迅猛发展,计算机技术已在医学研究方面广泛应用并促进了医学信息的数字化发展。同时,由于电子病历和病案的大量应用、医疗设备和仪器的数字化,每天都有数以百万计的医学信息添加到数据库中,使得医学数据库的信息容量不断地膨胀,这些信息在医疗科研方面具有非常大的利用价值。本次毕业设计主要由三个部分组成,通过各类挖掘算法,结合编程、存储等软件工具,对已有的医学数据进行分析,一是以R语言为主体,作为实现数据挖掘算法的主要工具,利用主成分分析算法以及相关性分析算法完成对原始数据的分析,并将结果以图片的形式直观的展现出来;二是以MySQL数据库为原始数据存储工具,用于对研究数据的存储以及后续的调用,使原始数据得以完整的呈现在网页之中;三是以PHP为输出环境开发工具,建立本地服务器将程序嵌入到HTML文档中去执行,并将算法分析结果和数据库原始数据以动态网页形式显示。数据挖掘算法广泛应用于各类测试数据的分析研究当中,利用各种不同种类的算法使数据得到更为高效快捷的处理,具有良好的发展前景,尤其是对于医学以及经济学等拥有大量记录数据的研究领域,更是前途不可限量。
目 录
摘 要 I
ABSTRACT II
第1章 绪论 1
1.1 课题的研究 1
1.1.1 课题的提出 1
1.1.2 数据挖掘的定义 1
1.1.3 数据挖掘在医学方面的主要应用 1
1.1.4 数据挖掘的发展前景 3
第2章 数据挖掘算法的软件介绍 4
2.1 R语言 4
2.1.1 R语言简介背景 4
2.1.2 R语言的优势 4
2.2 xampp 5
2.2.1 xampp的简介 5
2.2.2 MySQL的简介 6
2.2.3 PHP简介 7
第3章 数据挖掘算法的模块设计 9
3.1 数据挖掘算法的整体设计 9
3.2 算法实现模块设计 10
3.2.1 主成分分析 10
3.2.2 相关性分析 11
3.3 数据库
 *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^* 
模块设计 13
3.3.1 原始数据 13
3.3.2 数据库实现数据导入 14
3.4 PHP网页设计部分 15
第4章 数据挖掘算法的模块调试 17
4.1 数据挖掘算法的调试流程图 17
4.2 R语言算法程序调试 17
4.2.1 主成分分析算法调试及运行结果 17
4.2.2 相关性分析算法调试及运行结果 18
4.3 MySQL数据库的运行调试 19
4.4 网页界面的运行调试 22
4.4.1 主界面程序调试 22
4.4.2 原始数据界面程序调试 24
4.4.3 算法界面程序调试 25
总结与展望 28
致 谢 29
参考文献 30
附录 32
第1章 绪论
1.1 课题的研究
1.1.1 课题的提出
随着各类高通量组学数据的积累,尤其是健康医学数据亟待解决在线快速高效分析处理,以及数据模型构建及深度挖掘分析等技术问题。本课题将以高通量组学数据,即高通量健康医学应用数据为案例进行分析,涉及相关数据的建模和深度数据挖掘方法的设计和分析工作,以期最终为高通量健康医学数据的高效获取,合理利用提供一定的借鉴途径。
1.1.2 数据挖掘的定义
数据挖掘是一个新兴学科,包含了许多其他专业的知识。其中包含了用于数据存储的各类数据库系统、用于决策支持的统计学和运筹学等知识,除此之外,信息科学以及人工神经网络等领域也都有涉及[1]。它主要的用途是对原始数据进行相应的算法分析,达到所想要的分析结果,挖掘出隐藏的有利用价值的信息,并以此辅助决策者做出最为妥当的决断,实现利益的最大化。人工神经网络即人工智能手段,则可以通过理论模拟,完成现实中的任务和目标[2]。不过此项技术还有待开发,数据挖掘领域所能借鉴的只有一些较为成熟的理论算法。
1.1.3 数据挖掘在医学方面的主要应用
数据挖掘技术是非常实用的,在现代科技发展中应用于众多科研领域。如今,医学发展异常迅速,数据挖掘在其中发挥了发挥重要作用,以下六个方面尤为突出:
(1)疾病诊断:正确的诊断对于指导患者治疗以及康复过程中是非常重要的。在临床治疗中,有些疾病十分复杂,而数据挖掘中有关分类算法的知识完全适用于疾病的诊断。其中比较具有代表性的有粗糙集理论、人体神经网络分析和模糊逻辑分析等等。国外科研人员大量使用数据挖掘算法,将多种算法融合在一起用于疾病诊断,在医疗科研上取得了相当喜人的成果,尤其是在实体性肺结节以及心血管疾病的诊断中,更是取得了超过95%的正确率。近年来,在我国传统医学中,中医类风湿的诊断用到了粗糙集理论,效果较为突出,诊断准确率也得到了明显提高。
(2)相关因素分析:在医学数据库中,有许多有价值的信息并未被充分使用,包括患者的年纪、住址以及生活情况等等,对这些信息进行一个有针对性的相关因素分析可以用于指导医生对相似病例的治疗,而对于某些疾病的发病因素进行分析则可以指导患者如何有效的去预防此类疾病。在美国,Jonathan C.Prather等人应用数据挖掘的相关理论,成功发现了可造成孕妇早产的3个危险因素,这对于孕妇及其家属来说是非常重要的。
(3)病情预测:这项功能可用于监测并确定某些疾病的发展趋势。依据同类病人的临床表现,对其以往病史加以数据分析,往往可以正确预测出新的疾病的发生概率,从而有利于医生做出有针对性的措施,防治疾病发生。例如在现有的医疗条件下,人工预测早产的正确率仅有30%左右,而利用数据挖掘分析则可以使此数值达到80%,在临床应用中,这两个数值的使用价值可谓天壤之别。
(4)在医疗质量管理中的应用:目前进行的医疗卫生领域的改革使得医院花费增加,与此同时患者对提升医院医疗质量的需求日趋明显,伴随着其他医疗服务机构的出现,医院管理者必须加强对医疗、管理的质量、费用一效益比率等问题的关注。医疗质量管理的核心是数据、标准、计划以及治疗的质量,一般用不同的指数参数化来衡量这些质量,本科题所研究的数据挖掘技术可以帮助进行关于数据、标准、计划以及治疗的质量指数的任务;得出关于它们的假说;检验现有的是否有效;提炼,粗糙化及调整它们的质量指数。常见的问题有:违背标准是什么原因导致的?个人信息、年龄、性别这一些因素怎样影响质量管理者对标准的违背的?举例而言,是否要修改因年龄因素和某种治疗导致住院时间比标准住院时间长的患者的治疗方案。数据挖掘技术可以帮助发现有关提高临床服务效率及质量潜力,并为决策者们提供可靠证据。
(5)在医学图像中的应用:应用图像来帮助医生做出诊断已是医学领域中疾病诊断的常态,方法工具也数目繁多,如SPECT、CT、MRI、PET等,数据挖掘就可以运用到医学图像的分析当中。一个经典的案例就是,Sacha等人对心肌SPECT图像运用了基于贝叶斯分类的数据挖掘,并成功地完成了分类诊断。
(6)在医学其他方面的应用:数据挖掘还被应用于研究毒理学,统计发现药物的潜在的副作用。
1.1.4 数据挖掘的发展前景
数据挖掘是算法的研究中尤为重要的成员,因为数据挖掘面向的对象是海量的数据,设计出优秀的算法可以使数据处理速度得到极大地提高,节约对计算机资源的不必要占用。在学术界中,数据挖掘算法的研究一直是热点话题,新的算法提出层出不穷。基于研究各类算法的文章大多数只停留在理论层面的探讨上的并没有相应的算法实现的现状,本文将致力于利用R语言实现相关数据的挖掘算法。之所以选用R语言,是因为它的免费、开放源代码、算法更新速度快等优点,符合人们对适用性、高速型的要求。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/1091.html

好棒文