dna序列的甲基化识别方法研究studyonmethylationrecognitionmethodofdnaseque
摘 要摘 要生物信息学是一门结合了应用数学,统计学以及计算机科学的新兴学科,主要是研究收集生物的信息,并对其进行处理分析。然而DNA甲基化的识别就需要这个多基础学科的新兴科学进行研究,为了在计算机中完整的表示出DNA的属性特征,我们需要各种数学统计的方法,对相关DNA进行特征提取,然后使用计算机对特征向量进行识别。在识别DNA甲基化的过程中,需要先构造DNA序列的特征向量,物化属性,位置特异性,对称结构均可以作为提取特征向量的方式,但是若单个使用这些方式,可能导致预测精度不够高;若我们对其中的一些特征进行合并,即用化学属性与位置特异性相结合可形成新的方法,对DNA甲基化位点数据集上面的样本进行抽取分类特征步骤,然后针对性构建分类器,并且确定相关的分类器的参数,之后选用支持向量机(SVM)作为预测工具在DNA数据集上进行实验,最终结果能保证优于单个属性提取的特征向量所得结果。关键词:支持向量机(SVM);化学属性;位置特异性;甲基化;特征提取
目 录
第一章 绪 论 1
1.1 DNA甲基化研究背景及意义 1
1.2 DNA甲基化国内外研究现状 1
1.3 论文主要工作 2
第二章 DNA概述 3
2.1 DNA的含义及表达方式 3
2.2 DNA的化学属性及特征向量的构造方法 5
第三章 DNA甲基化识别 7
3.1确定DNA序列集 7
3.2 特征向量的提取 8
3.3 支持向量机 10
第四章 结果与讨论 13
4.1 绩效评价 13
4.2 交叉验证测试 13
4.3参数优化 14
4.4 数据测试结果 14
4.5 现有预测讨论 16
结语 19
致谢 20
参考文献 21
绪 论
DNA甲基化研究背景及意义
DNA甲基化是指在DNA中的胞嘧啶发生改变,导致一个甲基基团被加入到胞嘧啶中,这个过程在各类生物体的个体,组织,细胞中都普遍存在,但是甲基化程度却是具有差异性的。因为DNA中存在着大量的遗传信息,然而DNA甲 *好棒文|www.hbsrm.com +Q: *351916072*
基化可能导致遗传信息发生改变,从而影响基因的表达,因此个体的病症,老化,遗传,细胞的变化与DNA甲基化密切相关。为了对基因调控的机制进行进一步的说明也为了提高由甲基化引起的相关疾病的诊断与治疗,我们需要深入研究DNA甲基化,与恶性肿瘤,有性生殖、衰老的发生之间的关系。
因此,加快DNA甲基化的研究进程将有利于提高疾病的治愈能力与揭开DNA隐藏的生命信息,还能帮助医学工作者研究出指定药物,对人类健康做出巨大贡献。
DNA甲基化国内外研究现状
当前国内外大多数甲基化研究主要针对于RNA,主要采取了识别N6甲基腺嘌呤核苷酸[6],使用伪核苷酸识别[7],核小体定位预测[8],PseDNC等方法,然而针对蛋白质也采用了伪核苷酸识别,自相关系数和PseAAC[9]等方法,这些方法对甲基化的识别程度越来越高,在RNA的基础上,DNA甲基化的识别也逐渐成熟,无论是由核酸分子本身出发的理化属性分类,还是根据DNA序列产生的位置特异性或结构特性,这些特殊区分属性均能作为提取DNA序列特征向量的基础。
研究存在问题:
当前DNA的特征向量提取方法并不能表示出DNA所有特征;
我们需要研究出更加准确的分类器,对DNA序列是否甲基化进行分类;
如何创造出更多的验证测试方法。
1.3 论文主要工作
DNA序列的甲基化识别方法研究中主要是针对DNA序列的甲基化识别,然而现阶段该论文主要是由RNA序列甲基化识别所引伸过来的,同样的还有蛋白质氨基酸的识别,大多数识别方法均是基于RNA检测,例如由理化性质,位置特异性,统计对称结构等方法提前相关的特征向量,在本文中主要利用化学属性和位置特异性的结合,提取DNA序列的特征向量,然后选用支持向量机[1,2,3](SVM)作为预测工具,在DNA数据集DNA_sequence中进行实验,然后与其他方法得出结果进行比较。
本文主要采取化学属性及位置特异性结合的方法来提取DNA特征向量,主要方法就是先由各个核酸的化学属性,对4种核酸进行分组,嘌呤和嘧啶,氨基和酮类,强弱氢键,由(1,0)分别代表,然后将这四个核酸由(1,1,1)类型的向量表示出来,然后对由核酸组成的DNA序列进行密度划分,结合两者,便可以得出一个由化学属性和位置特异性相结合的DNA序列的特征向量,然后根据特征向量构建一个DNA序列样本甲基化位点检测的分类器,通过Jackknife进行交叉验证,通过Sp、Sn、ACC和MCC等指标对实验结果进行评价。
第二章 DNA概述
2.1 DNA的含义及表达方式
DNA是染色体的主要化学组成成分,也还是组成基因的基因分子,所以说DNA也被称之为“遗传分子”。DNA中包含着巨大数量的遗传信息。我们通常将DNA的序列不发生改变,但基因表达却发生了可遗传的改变称之为表观遗传。这样子的改变只是细胞内其他可遗传物质发生的改变,但是遗传信息却没有变化,并且在个体发育和细胞增殖过程中这种可遗传物质的改变是能够稳定遗传的。
DNA又称脱氧核糖核酸,是一种双链结构的分子,它是由脱氧核糖、磷酸及四种含氮碱基组成,它可以生成出指导遗传的命令,引领着个体生物成长发育与生命体制变化运行。它的主要功能是长期性的储存遗传信息,我们经常称之为生命蓝图。其中由DNA生成的指令,也就是由遗传信息表达出来的物质就是用来形成细胞内其他的物质,例如RNA与蛋白质所需要的物质就是通过DNA指令生成的。在DNA中,因为有些DNA片段存储着遗传信息,我们称之为基因,然而不存储遗传信息的DNA序列,都各自具有自己的功能,有的直接为自身构成提供帮助作用,有的则参与调整控制遗传信息,然而即使组成最简单的生命也最少要265到350个基因。
我们所说的DNA是一种由四种脱氧核糖核苷酸所构成的长链的聚合物,它们分别是:胸腺嘧啶脱氧核苷酸(dTMP )、腺嘌呤脱氧核苷酸(dAMP )、胞嘧啶脱氧核苷酸(dCMP )、鸟嘌呤脱氧核苷酸(dGMP )。然而脱氧核糖(五碳糖)与磷酸分子之间借由酯键相连,四种碱基排列在内侧,脱氧核糖排列在外侧,从而构成了这种长链聚合物的骨架。蛋白质的合成是由遗传密码指导的,这些遗传密码是由脱氧核糖和四个碱基中的一个碱基相连然后沿着DNA长链所排列而成的序列。通常情况下我们将读取密码的过程称为转录,这个过程是以DNA两条链中的一条单链作为转录的模板,然后转录出一段核酸分子,我们叫这段核酸分子为信使RNA。因此,合成蛋白质的信息大多数存在于RNA中,其他一些RNA本身就拥有特殊功能,例如rRNA、siRNA与snRNA。
目 录
第一章 绪 论 1
1.1 DNA甲基化研究背景及意义 1
1.2 DNA甲基化国内外研究现状 1
1.3 论文主要工作 2
第二章 DNA概述 3
2.1 DNA的含义及表达方式 3
2.2 DNA的化学属性及特征向量的构造方法 5
第三章 DNA甲基化识别 7
3.1确定DNA序列集 7
3.2 特征向量的提取 8
3.3 支持向量机 10
第四章 结果与讨论 13
4.1 绩效评价 13
4.2 交叉验证测试 13
4.3参数优化 14
4.4 数据测试结果 14
4.5 现有预测讨论 16
结语 19
致谢 20
参考文献 21
绪 论
DNA甲基化研究背景及意义
DNA甲基化是指在DNA中的胞嘧啶发生改变,导致一个甲基基团被加入到胞嘧啶中,这个过程在各类生物体的个体,组织,细胞中都普遍存在,但是甲基化程度却是具有差异性的。因为DNA中存在着大量的遗传信息,然而DNA甲 *好棒文|www.hbsrm.com +Q: *351916072*
基化可能导致遗传信息发生改变,从而影响基因的表达,因此个体的病症,老化,遗传,细胞的变化与DNA甲基化密切相关。为了对基因调控的机制进行进一步的说明也为了提高由甲基化引起的相关疾病的诊断与治疗,我们需要深入研究DNA甲基化,与恶性肿瘤,有性生殖、衰老的发生之间的关系。
因此,加快DNA甲基化的研究进程将有利于提高疾病的治愈能力与揭开DNA隐藏的生命信息,还能帮助医学工作者研究出指定药物,对人类健康做出巨大贡献。
DNA甲基化国内外研究现状
当前国内外大多数甲基化研究主要针对于RNA,主要采取了识别N6甲基腺嘌呤核苷酸[6],使用伪核苷酸识别[7],核小体定位预测[8],PseDNC等方法,然而针对蛋白质也采用了伪核苷酸识别,自相关系数和PseAAC[9]等方法,这些方法对甲基化的识别程度越来越高,在RNA的基础上,DNA甲基化的识别也逐渐成熟,无论是由核酸分子本身出发的理化属性分类,还是根据DNA序列产生的位置特异性或结构特性,这些特殊区分属性均能作为提取DNA序列特征向量的基础。
研究存在问题:
当前DNA的特征向量提取方法并不能表示出DNA所有特征;
我们需要研究出更加准确的分类器,对DNA序列是否甲基化进行分类;
如何创造出更多的验证测试方法。
1.3 论文主要工作
DNA序列的甲基化识别方法研究中主要是针对DNA序列的甲基化识别,然而现阶段该论文主要是由RNA序列甲基化识别所引伸过来的,同样的还有蛋白质氨基酸的识别,大多数识别方法均是基于RNA检测,例如由理化性质,位置特异性,统计对称结构等方法提前相关的特征向量,在本文中主要利用化学属性和位置特异性的结合,提取DNA序列的特征向量,然后选用支持向量机[1,2,3](SVM)作为预测工具,在DNA数据集DNA_sequence中进行实验,然后与其他方法得出结果进行比较。
本文主要采取化学属性及位置特异性结合的方法来提取DNA特征向量,主要方法就是先由各个核酸的化学属性,对4种核酸进行分组,嘌呤和嘧啶,氨基和酮类,强弱氢键,由(1,0)分别代表,然后将这四个核酸由(1,1,1)类型的向量表示出来,然后对由核酸组成的DNA序列进行密度划分,结合两者,便可以得出一个由化学属性和位置特异性相结合的DNA序列的特征向量,然后根据特征向量构建一个DNA序列样本甲基化位点检测的分类器,通过Jackknife进行交叉验证,通过Sp、Sn、ACC和MCC等指标对实验结果进行评价。
第二章 DNA概述
2.1 DNA的含义及表达方式
DNA是染色体的主要化学组成成分,也还是组成基因的基因分子,所以说DNA也被称之为“遗传分子”。DNA中包含着巨大数量的遗传信息。我们通常将DNA的序列不发生改变,但基因表达却发生了可遗传的改变称之为表观遗传。这样子的改变只是细胞内其他可遗传物质发生的改变,但是遗传信息却没有变化,并且在个体发育和细胞增殖过程中这种可遗传物质的改变是能够稳定遗传的。
DNA又称脱氧核糖核酸,是一种双链结构的分子,它是由脱氧核糖、磷酸及四种含氮碱基组成,它可以生成出指导遗传的命令,引领着个体生物成长发育与生命体制变化运行。它的主要功能是长期性的储存遗传信息,我们经常称之为生命蓝图。其中由DNA生成的指令,也就是由遗传信息表达出来的物质就是用来形成细胞内其他的物质,例如RNA与蛋白质所需要的物质就是通过DNA指令生成的。在DNA中,因为有些DNA片段存储着遗传信息,我们称之为基因,然而不存储遗传信息的DNA序列,都各自具有自己的功能,有的直接为自身构成提供帮助作用,有的则参与调整控制遗传信息,然而即使组成最简单的生命也最少要265到350个基因。
我们所说的DNA是一种由四种脱氧核糖核苷酸所构成的长链的聚合物,它们分别是:胸腺嘧啶脱氧核苷酸(dTMP )、腺嘌呤脱氧核苷酸(dAMP )、胞嘧啶脱氧核苷酸(dCMP )、鸟嘌呤脱氧核苷酸(dGMP )。然而脱氧核糖(五碳糖)与磷酸分子之间借由酯键相连,四种碱基排列在内侧,脱氧核糖排列在外侧,从而构成了这种长链聚合物的骨架。蛋白质的合成是由遗传密码指导的,这些遗传密码是由脱氧核糖和四个碱基中的一个碱基相连然后沿着DNA长链所排列而成的序列。通常情况下我们将读取密码的过程称为转录,这个过程是以DNA两条链中的一条单链作为转录的模板,然后转录出一段核酸分子,我们叫这段核酸分子为信使RNA。因此,合成蛋白质的信息大多数存在于RNA中,其他一些RNA本身就拥有特殊功能,例如rRNA、siRNA与snRNA。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/751.html