基因表达谱数据分析

利用基因芯片技术得到海量的基因芯片数据,如何从海量的数据中找出其固有的生物规律,进而揭示基因的功能及其相互之间的作用?目前主要可以通过生物实验法和理论统计方法。实验方法耗费大量的人力物力,而利用统计学不但解决了实验法的不足,而且省时高效。聚类分析作为一种有效的统计方法被广泛使用的在数万个基因表达数据的基因芯片技术上,能够高效地发掘功能相似的基因。基因表达谱聚类方法较多,本文主要针对经典的K-means聚类方法进行研究,在MATLAB软件下,对模拟数据和实际数据两组不同基因表达谱数据进行聚类分析,以验证方法的有效性。结果表明K-means聚类算法有良好的聚类效果,也存在一定的不足。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 1
1 材料与方法 2
1.1 研究背景及意义 2
1.2 国内外研究概况 2
1.3 本文工作 3
1.4 本文研究方法(建立模型) 3
1.4.1 模型准备 3
1.4.2 模型假设 3
1.4.3 模型构成 4
1.5 算法流程图 4
1.6 MATLAB实现: 5
1.7 模拟数据 6
1.7.1 模拟数据1 6
1.7.2 模拟数据2 7
2 结果与分析 7
2.1 数据集Data1 7
2.2 数据集Data2 8
3 讨论 10
致谢 10
参考文献 11
基因表达谱数据分析
信息与计算科学 居梦月
引言
引言
随着DNA芯片技术的发展,人类对生命科学的认知有了更加强大的武器。基因芯片技术对基因表达谱进行同步测量,然后对基因表达的数据进行分析,以提供有用的信息。对数据的分析是其中重要的步骤,模式识别、聚类分析以及多元统计等等是运用于基因表达谱数据分析的几种方法。其中,基因表达聚类分析主要思想是合成类,使同一类的个体差异最小,将基因按其表达谱的相似程度,将其中功能相关的基因聚成类群,促进 *好棒文|www.hbsrm.com +Q: &351916072& 
对未知其功能的基因的研究,从而获得新的知识。Kmeans聚类算法是聚类分析中的一种,在此篇文章中,我们以Kmeans聚类分析为主,运用多组数据达到聚类的实验效果。
1 材料与方法
1.1 研究背景及意义
基因在遗传学上有重要作用,基因决定了物种形态。基因表达谱能描绘在特定状态下的特定细胞和组织的基因表达种类与信息,最终目的是,通过从获取的基因表达谱数据用来探究在某一特定生物学状态下的能够被预测的基因调控功能。通过生物信息学的分析方法,利用使用广泛的基因芯片技术产生的基因表达数据,揭示基因的功能以及相互之间的作用。聚类方法能够高效发掘功能相似的基因,利用聚类分析,能使更多的基因被了解,以用现代生物技术向着有利于人类的方向发展。
1.2 国内外研究概况
随着基因芯片技术的发展,以及基因对于人类的重要程度,使得人类对基因日渐产生浓厚的兴趣。自然选择一般作用于表型,这也是选择潜在基因组成的一种间接的方式。由于发育过程形成了物种面貌,参与生物发育途径的一类基因在遗传进化中有重要地位。基因芯片技术的发展,使得对特定发展阶段的基因的识别有了很大进展[3]。随着时间过去,对这些基因表达的研究是对于理解基因表达模式共变的重要组成部分,同时,这些基因的规则也负责了后阶段表型值。数量性状基因座定位代表了识别与数量性状表型值相关的基因的传统方法。
随着多个生物基因组测序、基因芯片技术已经有的广泛的应用,一个单晶片能够同时测量上千个基因的表达。分析微阵列数据应该根据实验和数据结构的目的。鉴于聚类分析能把基因分成不同的群组,为探索基因群直接不同的表达,作不同的表达分析,即控制和处理。
以前有很多的聚类分析都是在离散条件下,以表达谱的相似性为基础。例如,来自不同机构的事件[4],特殊药物治疗之后的时间点[5],药物注射的剂量[6],最普遍的聚类方法包括分层聚类[7],Kmeans聚类[8],和自组织特征映射[9]。这些算法都是“启发式的”,以距离矩阵为基础分类基因,不需要任何潜在的统计模型。作为一个可供选择的算法,以模型为基础的聚类方法已经被提出并且运用到微阵列数据[10]。使用模型为基础的算法的优点是聚类的不确定性能被估计。另外,可供选择的模型能被利用和比较。
基因表达谱也运用到了疾病诊断事件的分类。特殊科技也发展运用到事件分类上,例如,降维,变量选择[11]。
以离散群为基础的聚类和以离散类别为基础的分类预测是有价值的。数量性状表型值和基因表达的关系能使用单一基因和连续表型值之间的Pearson相关系数成对地检测[12][13]进一步,使用迷你心理状态检查(MMSE)——一种能够查出许多与严重老年痴呆症(AD)有关的基因的检查[14],根据基因表达相关系数分类基因。使用家庭内部关系分析来删除家庭统计的影响[13]。尽管Pearson系数是连接单一基因和数量性状表型值之间线性关系的直接方式,但是Pearson系数局限于与单一基因或表型值相关的线性关系。用10种不同的大麦品种中的6种品质表型值调查基因表达的关系[15]。他们用表型值及g统计检验计算出距离矩阵,将这10个品种每个基因表型值的距离矩阵进行比较。这个方法允许了多种表型值的检验,但仍然注重单一基因的线性关系。基因群和数量性状表型值之间的线性关系在回归定位中被描述[16]。在AD微阵列实验中,我们看到了一个基因表达和MMSE之间的非线性关系。
基因表达谱聚类分析方法较多,平滑样条聚类法的CalinskiHarabasz指数平均数最大,灵敏值平均数最小,分类正确率最大,为最优;数量性状关联聚类次之,局部逼近模糊聚类最差[2]。
1.3 本文工作
聚类分析是挖掘高维基因表达数据的有效方法之一,其目的在于从生物学途径将功能相似的基因聚类到一组,为实验生物学提供参考信息,也为植物遗传多样性、物种进化和标记性状关联分析提供参考[17]。本文主要对聚类分析其中的一种方法——Kmeans聚类分析开展了研究。
有了基因芯片技术的基础,基因表达数据的分析尤为重要,聚类分析是其中的一种重要方法。在此次研究中,我们主要讨论了Kmeans聚类分析的思想和算法,以算法为基础,通过MATLAB程序实现实验过程,用两组不同的基因表达数据集为实验数据,将混合不同类的基因进行分类。Kmeans算法的基本思想是初始随机给定K个聚类中心,按照最邻近原则把待分类样本点分到各个类,重新计算每类里点集平均值作各个类的质心,从而确定新的质心。照此规则一直迭代,直到质心的移动距离小于某个已给定的值,或达到一定的迭代次数。
1.4 本文研究方法(建立模型)
1.4.1 模型准备
有11,1,8,9,2五个点,将这五个点分成两类。
取任意两点,不妨假设取出的是8,9分别作为第一类和第二类的质心
计算每个点到质心(8和9)的距离:,将11放在第二类;,将1放在第一类;。将8放在第一类;,将9放在第二类;,将2放在第一类。
于是得到第一类的点有:1,2,8;计算平均值作为新的第一类质心;第二类的点有:9,11;计算平均值作为新的第二类质心。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1837.html

好棒文