大数据环境下基因组数据的挖掘与分析算法研究
在大数据的冲击潮流下,数据的堆积越来越严重,使得数据的挖掘与算法的分析在数据的处理中越来越重要。与此同时,生物医学的兴起,各种生物医学的数据处理的方法层出不穷,其中聚类算法和线性回归分析算法是数据处理中常用的算法。在规定的时间内达到高速有效的挖掘数据,摘取有代表性的数据表达值,规范化处理数据特质,并有秩序整理大量数据的文档,成为大数据时代最为重要的措施。本论文主要是对乳腺癌的基因芯片表达值进行数据分析和算法的研究,采用了三种经典的数据处理算法:聚类算法,kmeans算法和线性回归分析法。其中聚类算法是按照一些特定标准(如距离的中位值,均值等)把大量的数据值分成不同的类或簇;kmeans算法主要用于数据的预处理上,将数据进行简单的分类,让数据特征更加明显;线性回归分析法则是用合适的函数模型来拟合分散的实验数据,利用数理统计方法,找出数据之间的隐藏关系。通过对算法原理理论的分析,及算法的运算,使得相似度较高的数据拟合在一个类里,相关性较强的数据可以用函数模型进行校验。最后,本论文还对算法的输出图像进行了简单的分析,研究讨论了算法的适用领域和算法的优缺点,比如聚类算法的限制少,kmeans算法的复杂度低,线性回归模型校验繁杂等,为往后的数据挖掘与算法分析提供方向和参考。
Key words: Big data,Data analysis,Clustering algorithm,Linear regression analysis,Data mining目录
摘要 I
Abstract II
第一章 绪论 1
1.1 课题的分析研究 1
1.1.1 课题的研究背景及提出原因 1
1.1.2 数据挖掘的基本理论以及算法概念 1
1.1.3 数据挖掘的现状和发展前景 2
第二章 数据分析与Rstudio介绍 3
2.1 R语言的特点介绍 3
2.2 Rstudio与数据统计建模的联系 4
2.3 生物医学简介 5
2.4 乳腺癌基因芯片数据表达值简介及研究意义 5
第三章 R语言中数据挖掘的研究理论分析 6
3.1在R语言中经典聚类算法的介绍 6
3.1
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
.1 最短距离法 8
3.1.2 最长距离法 9
3.1.3 中间距离法 9
3.1.4 类平均法 10
3.2 kmeans算法 11
3.3线性回归分析法 13
第四章 数据算法研究结果分析比较以及应用 15
4.1 聚类算法结果图分析及应用 16
4.2 kmeans算法效果图分析及应用 19
4.3 线性回归算法功能图分析及应用 22
第五章 结论及展望 25
5.1 结论 26
5.2 展望 26
谢辞 26
参考文献 27
附录一 29
附录二 43
绪论
课题的分析研究
课题的研究背景及提出原因
随着大数据时代的到来,生物医学的兴起,各种数据处理的方法层出不穷,有效数据的挖掘以及相似度极高的数据的分类有了进一步的提升。而生物医学中数据在不同的时间段表现出其不同的特性,从而使得数据杂乱无章,没有规律的排列在一起,面对如此一个窘境,数据的算法分析显示出其强大的处理能力,结合R语言的代码开源性[1],很多算法可以简单有效的表现出来,使得数据直观明了的归类在一起,为下一步的研究提供了有代表性的数据和去除了无关痛楚的数据,例如机器误测的数据[2],某时间段不正常的表达值等。因此本课题就医学数据的挖掘及算法分析的测试进行了简单的研究,对部分的数据进行算法分析,然后对下一步的应用也简单的介绍。
数据挖掘的基本理论以及算法概念
有人说数据挖掘是一门交叉的学科,它可以对数据的获取应用能从简单的低层次的数值查询,提升到可以在大量数据中挖掘相关的知识,从而可以在数据应用中提供技术及理论的决策支持[3]。确实,数据挖掘就是从了无边际的模糊而且随机的海量的数据中,提取人们所不知道的隐藏的数据价值和信息知识,其中数据源的数据必须拥有真实性和代表性。算法简单来说就是运算方法。数据依据什么特征模型可以高速有效的访问或者提取出来,算法的分析和建立显得尤为重要,所以算法大概可以分为三个步骤,针对问题进行简单的分析,选用或者是构建算法,算法的实现。可以做简单的图像简单的显示出本课题的数据挖掘及算法分析之间的联系,如下:
图1.1 数据挖掘及算法分析之间的联系图
数据挖掘的现状和发展前景
当今时代的数据挖掘主要集中在通信电信网络数据和一些特俗的商业行业方面,如银行,农场等。也可以应用于当今的大热门电子商务之类的,例如淘宝、京东、亚马逊等,搜索对应的商品会出现对已购该商品的客户的评价。因此很多的企业和机构开始重视这门学识,开始为该职能开设工作岗位,无疑这是一个信号,引领了新一代的智能数据处理的潮流。可以说随着数据挖掘技术的不断发展和完善,越来越多的数据库和数据集得以有效的取用[4],并且数据的繁杂和随机分散性得以分析归类,有效节省储存的空间,将会被更多的用户采纳和接受,将更加智能的融入到企业商务管理系统中。
第二章 数据分析与Rstudio介绍
2.1 R语言的特点介绍
简单来说Rstudio是一个的开源性的软件系统,有着强悍的统计分析能力及强大的作图功能。同时Rstudio的涉及面比较广泛,有较为简单的编程语言,有着强大的开源性程序兼容性,可以调用其他的开源兼容的程序包等。因此Rstudio含有大量的简化了的函数程序可供调用学习,明显简化了很大一部分的编程工作。并且Rstudio是个免费的软件,可以随意使用,很多复杂的数据集的分析都采用Rstudio来运行,分析完成后,Rstudio只会显示出你想要的结果图片,不会大量出现分析过程所得到的图片,避免的软件电脑资源过多的情况。所以说Rstudio是本课题的灵活性可以充分的展示出来。
本课题采用的是R3.1.2版本,里面有丰富的例程介绍及一些经典算法的程序包,可以直接运用函数“help()”或者“?()”来查询相关的函数功能,就会得到相应的例程解析,方便学习使用:
图2.1 函数“help()”例程图
2.2 Rstudio与数据统计建模的联系
Rstudio是一种具有数学计算环境的统计软件,提供了很多用于统计的程序包,使得数据的展示分析环境更加具有弹性和互动性。很多可用于统计的计算工具和函数模型都集成在Rstudio中,用户只需要依据其需要选用相关的数据库和函数模型,通过调用该函数程序,就可以把数据交给Rstudio来灵活处理,甚至在相关的研究中诞生新的统计计算方法,扩展Rstudio中的算法程序,更加高效的分析和解决研究的问题。
很多的数学的概率事件中,有不少的统计模型,并且这些模型比较繁杂,其中的计算更是让望尘莫及,但是Rstudio很好的解决了计算复杂的问题。通过对数据描述性的分析,做出相关的图像如直方图等,了解数据的基本特征。通过运用Rstudio中的函数包,对数据进行相关的模型选取,回归分析,参数估计以及检验矫正的步骤使得数据的处理归类更加的显著。而统计建模是利用各种数学计
Key words: Big data,Data analysis,Clustering algorithm,Linear regression analysis,Data mining目录
摘要 I
Abstract II
第一章 绪论 1
1.1 课题的分析研究 1
1.1.1 课题的研究背景及提出原因 1
1.1.2 数据挖掘的基本理论以及算法概念 1
1.1.3 数据挖掘的现状和发展前景 2
第二章 数据分析与Rstudio介绍 3
2.1 R语言的特点介绍 3
2.2 Rstudio与数据统计建模的联系 4
2.3 生物医学简介 5
2.4 乳腺癌基因芯片数据表达值简介及研究意义 5
第三章 R语言中数据挖掘的研究理论分析 6
3.1在R语言中经典聚类算法的介绍 6
3.1
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
.1 最短距离法 8
3.1.2 最长距离法 9
3.1.3 中间距离法 9
3.1.4 类平均法 10
3.2 kmeans算法 11
3.3线性回归分析法 13
第四章 数据算法研究结果分析比较以及应用 15
4.1 聚类算法结果图分析及应用 16
4.2 kmeans算法效果图分析及应用 19
4.3 线性回归算法功能图分析及应用 22
第五章 结论及展望 25
5.1 结论 26
5.2 展望 26
谢辞 26
参考文献 27
附录一 29
附录二 43
绪论
课题的分析研究
课题的研究背景及提出原因
随着大数据时代的到来,生物医学的兴起,各种数据处理的方法层出不穷,有效数据的挖掘以及相似度极高的数据的分类有了进一步的提升。而生物医学中数据在不同的时间段表现出其不同的特性,从而使得数据杂乱无章,没有规律的排列在一起,面对如此一个窘境,数据的算法分析显示出其强大的处理能力,结合R语言的代码开源性[1],很多算法可以简单有效的表现出来,使得数据直观明了的归类在一起,为下一步的研究提供了有代表性的数据和去除了无关痛楚的数据,例如机器误测的数据[2],某时间段不正常的表达值等。因此本课题就医学数据的挖掘及算法分析的测试进行了简单的研究,对部分的数据进行算法分析,然后对下一步的应用也简单的介绍。
数据挖掘的基本理论以及算法概念
有人说数据挖掘是一门交叉的学科,它可以对数据的获取应用能从简单的低层次的数值查询,提升到可以在大量数据中挖掘相关的知识,从而可以在数据应用中提供技术及理论的决策支持[3]。确实,数据挖掘就是从了无边际的模糊而且随机的海量的数据中,提取人们所不知道的隐藏的数据价值和信息知识,其中数据源的数据必须拥有真实性和代表性。算法简单来说就是运算方法。数据依据什么特征模型可以高速有效的访问或者提取出来,算法的分析和建立显得尤为重要,所以算法大概可以分为三个步骤,针对问题进行简单的分析,选用或者是构建算法,算法的实现。可以做简单的图像简单的显示出本课题的数据挖掘及算法分析之间的联系,如下:
图1.1 数据挖掘及算法分析之间的联系图
数据挖掘的现状和发展前景
当今时代的数据挖掘主要集中在通信电信网络数据和一些特俗的商业行业方面,如银行,农场等。也可以应用于当今的大热门电子商务之类的,例如淘宝、京东、亚马逊等,搜索对应的商品会出现对已购该商品的客户的评价。因此很多的企业和机构开始重视这门学识,开始为该职能开设工作岗位,无疑这是一个信号,引领了新一代的智能数据处理的潮流。可以说随着数据挖掘技术的不断发展和完善,越来越多的数据库和数据集得以有效的取用[4],并且数据的繁杂和随机分散性得以分析归类,有效节省储存的空间,将会被更多的用户采纳和接受,将更加智能的融入到企业商务管理系统中。
第二章 数据分析与Rstudio介绍
2.1 R语言的特点介绍
简单来说Rstudio是一个的开源性的软件系统,有着强悍的统计分析能力及强大的作图功能。同时Rstudio的涉及面比较广泛,有较为简单的编程语言,有着强大的开源性程序兼容性,可以调用其他的开源兼容的程序包等。因此Rstudio含有大量的简化了的函数程序可供调用学习,明显简化了很大一部分的编程工作。并且Rstudio是个免费的软件,可以随意使用,很多复杂的数据集的分析都采用Rstudio来运行,分析完成后,Rstudio只会显示出你想要的结果图片,不会大量出现分析过程所得到的图片,避免的软件电脑资源过多的情况。所以说Rstudio是本课题的灵活性可以充分的展示出来。
本课题采用的是R3.1.2版本,里面有丰富的例程介绍及一些经典算法的程序包,可以直接运用函数“help()”或者“?()”来查询相关的函数功能,就会得到相应的例程解析,方便学习使用:
图2.1 函数“help()”例程图
2.2 Rstudio与数据统计建模的联系
Rstudio是一种具有数学计算环境的统计软件,提供了很多用于统计的程序包,使得数据的展示分析环境更加具有弹性和互动性。很多可用于统计的计算工具和函数模型都集成在Rstudio中,用户只需要依据其需要选用相关的数据库和函数模型,通过调用该函数程序,就可以把数据交给Rstudio来灵活处理,甚至在相关的研究中诞生新的统计计算方法,扩展Rstudio中的算法程序,更加高效的分析和解决研究的问题。
很多的数学的概率事件中,有不少的统计模型,并且这些模型比较繁杂,其中的计算更是让望尘莫及,但是Rstudio很好的解决了计算复杂的问题。通过对数据描述性的分析,做出相关的图像如直方图等,了解数据的基本特征。通过运用Rstudio中的函数包,对数据进行相关的模型选取,回归分析,参数估计以及检验矫正的步骤使得数据的处理归类更加的显著。而统计建模是利用各种数学计
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/dzxx/txgc/1146.html