rna序列甲基化识别方法研究(附件)【字数:16232】
摘 要摘 要RNA甲基化是指发生在RNA分子上不同位置的甲基化修饰现象。腺嘌呤第6位氮原子上的甲基化修饰(N6-methyladenosine, m6A)是高等生物mRNA中最丰富、最重要的转录后修饰之一。研究表明这种m6A甲基化对生物体的昼夜节律、细胞分裂和胚胎干细胞增殖有重要的调节作用,并与肥胖、不孕不育、癌症等疾病的成因密切相关。随着后基因时代的来临和高通量技术的发展,海量的未被识别的RNA序列不断涌现,采用生物学湿实验的方法进行实验检测需要耗费大量的时间、人力和金钱等。因此,迫切需要开发出一种高效的基于智能计算的RNA甲基化位点识别方法来加速生物信息学的研究进程。 针对上述问题,本文设计并实现了一种RNA序列上m6A甲基化位点识别预测器。在特征抽取上,提出一种新颖的核酸统计特征和物化属性特征相融合的特征表示方法,其中RNA序列样本的统计特征采用核酸组成成分和核酸位置特异性方法进行抽取,物理化学属性特征采用自相关系数、互相关系数和伪核酸组成成分方法进行抽取。在分类器设计上,采用SVM分类器来构建预测模型,通过10重交叉验证方法优化预测模型的参数。在预测模型的性能评价上,采用严格的Jackknife测试通过基础数据集进行性能评测。实验结果表明,本文提出的方法与最新研究成果相比在预测器的总体评价指标Acc和Mcc都有显著的提高,这也进一步验证了本文方法的有效性。关键词特征提取;RNA序列;甲基化;支持向量机
目 录
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.3 论文主要工作 3
第二章 RNA序列甲基化识别 4
2.1 识别方法概述 4
2.2 数据集 5
2.3 特征提取 5
2.4 分类器 6
2.5 检测方法 6
2.6 性能指标 7
第三章 特征提取方法 9
3.1 核酸统计特征的特征提取法 9
3.1.1 核酸组成成分法 9
3.1.2 单核苷酸位置特异性法 10
3.1.3 二核苷酸位置特异性法 12
3.2 物化属性特征的特征提取法 13
*好棒文|www.hbsrm.com +Q: *351916072*
/> 3.2.1物化属性矩阵 14
3.2.2自相关系数法和协相关系数法 15
3.2.3伪核酸组成成分法 17
3.3 组合特征法 18
3.4小结 18
第四章 实验结果 19
4.1 核酸统计方法的结果 19
4.2 物化属性的特征方法结果 19
4.3 组合特征结果 20
4.4 小结 22
第五章 实验结论与分析 23
5.1 实验结果比较 23
5.2 结果分析与结论 24
结 语 25
致 谢 26
参 考 文 献 27
第一章 绪论
1.1 研究背景及意义
在分子生物学的中心法则中,遗传信息从DNA、RNA流向蛋白质。基因组DNA和组蛋白上都存在可逆的表观遗传学修饰,这些修饰可调控基因的表达,并由此决定细胞的状态,影响细胞的分化和发育[1]。近年来人们发现,mRNA和其它RNA上也存在类似的调控机制。当前的研究表明,在mRNA、tRNA和rRNA上有超过100种不同的RNA转录后修饰,其中RNA甲基化是RNA转录后修饰中一种重要的存在[2]。RNA甲基化在控制基因的表达、基因的剪接、RNA的编辑、RNA的稳定性,影响mRNA的寿命和降解mRNA等方面扮演着极其重要的角色[3],所以我们对于RNA甲基化的识别研究,有助于揭示细胞发育和疾病等生物学现象,同时还能够帮助医学研究人员设计出影响基因表达、杀死或控制疾病的药物。
/
图11 可逆的m6A形成过程
RNA甲基化是指发生在RNA分子上不同位置的甲基化修饰现象。腺嘌呤第6位氮原子上的甲基化修饰(N6methyladenosine, m6A)是高等生物mRNA中含量最为丰富的修饰之一[14]。m6A是真核生物mRNA内部序列中最常见的一种甲基化修饰,这种修饰在细胞内是一个动态可逆的过程,它是由至少包含一个亚基的甲基转移酶催化形成的转移酶复合物,可逆的m6A甲基化过程如图11所示。早在40年前,人们就发现mRNA上存在腺嘌呤的甲基化修饰(m6A)。这种 m6A 修饰非常普遍,不过当时人们并不清楚这种修饰有何功能。从2012年开始,随着高通量技术的发展,高通量测序与抗体免疫沉淀相结合方法(MeRIPseq或m6Aseq)的出现,使得大规模检测m6A修饰成为可能[3]。近两年,通过在人、小鼠、酵母和拟南芥等系统内的研究,在甲基化动态调控机制的方面取得了较大的进展,并发现m6A可能会直接或间接影响mRNA的核转运、翻译和降解等。最近的研究表明m6A甲基化可以影响昼夜节律、细胞分裂和胚胎干细胞增殖从而参与各种病理生理过程,然而m6A对RNA的调控和参与细胞重编程的机制尚不清楚。
DNA和组蛋白的表观遗传学修饰主要在转录水平上起作用,可逆的RNA甲基化主要在转录后水平上调控基因表达[1]。且DNA、RNA和蛋白质均使用相同的化学修饰控制基因表达,所以RNA甲基化可以与DNA、组蛋白的表观遗传学修饰相提并论。然而人们对RNA甲基化的研究却远不如对DNA甲基化和蛋白质甲基化的研究。RNA甲基化种类繁多,也普遍存在于各种高级生物中,但是由于多年来大家都不太重视,且缺乏有效的检测手段,故RNA甲基化的相关研究一直停滞不前。因此加快RNA甲基化识别的研究,促进对高级生物中RNA甲基化功能的研究,是十分重要的且十分迫切的。
1.2 国内外研究现状
生物信息学中,最具挑战性的难题是如何将一个具体的生物序列表示成为具体的模型或向量,这个模型或向量需要保持生物序列中的准确且有序信息,不仅如此,还要能够抓住生物序列的主要特征。这是因为几乎所有的现有机器只能处理向量而不是生物序列样本。
在蛋白质的甲基化实验中,氨基酸成分法和PseAAC[2931]取得了很大成功,并被广泛应用于计算蛋白质组学等方面的研究。
在DNA甲基化的实验中,kmers[23]和gapped kmers[24]都成功应用于预测调控序列上,并取得了可喜的成果[2325]。同时对Chou提出的 PseAAC[31]进行拓展延伸,设计了称为PseKNC或伪Ktuple核苷酸组成的方法,使用它解决一些DNA上的重要问题,而且创建了与它相关的服务网站。[7,2628]
在RNA甲基化的实验过程中,需要对RNA序列进行特征提取,将RNA序列表示成为离散的、数值的、计算机可处理的向量,采用SVM分类器对特征提取出的特征向量进行学习,构建预测模型。由于对RNA甲基化的研究过少,目前的提出的特征提取方法都不能很好的表示RNA序列。所以,在RNA序列甲基化识别研究过程中,存在大量的问题:
第一、RNA序列的特征提取,怎样才能准确的提取出基准数据集中RNA序列特征。
第二、分类器,如何突破技术瓶颈,创建出一种更好的、更能将被甲基化的RNA和未被甲基化的RNA分开的分类器;或是怎样选出一种好的分类器用在对RNA序列的学习和预测上。
目 录
第一章 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 2
1.3 论文主要工作 3
第二章 RNA序列甲基化识别 4
2.1 识别方法概述 4
2.2 数据集 5
2.3 特征提取 5
2.4 分类器 6
2.5 检测方法 6
2.6 性能指标 7
第三章 特征提取方法 9
3.1 核酸统计特征的特征提取法 9
3.1.1 核酸组成成分法 9
3.1.2 单核苷酸位置特异性法 10
3.1.3 二核苷酸位置特异性法 12
3.2 物化属性特征的特征提取法 13
*好棒文|www.hbsrm.com +Q: *351916072*
/> 3.2.1物化属性矩阵 14
3.2.2自相关系数法和协相关系数法 15
3.2.3伪核酸组成成分法 17
3.3 组合特征法 18
3.4小结 18
第四章 实验结果 19
4.1 核酸统计方法的结果 19
4.2 物化属性的特征方法结果 19
4.3 组合特征结果 20
4.4 小结 22
第五章 实验结论与分析 23
5.1 实验结果比较 23
5.2 结果分析与结论 24
结 语 25
致 谢 26
参 考 文 献 27
第一章 绪论
1.1 研究背景及意义
在分子生物学的中心法则中,遗传信息从DNA、RNA流向蛋白质。基因组DNA和组蛋白上都存在可逆的表观遗传学修饰,这些修饰可调控基因的表达,并由此决定细胞的状态,影响细胞的分化和发育[1]。近年来人们发现,mRNA和其它RNA上也存在类似的调控机制。当前的研究表明,在mRNA、tRNA和rRNA上有超过100种不同的RNA转录后修饰,其中RNA甲基化是RNA转录后修饰中一种重要的存在[2]。RNA甲基化在控制基因的表达、基因的剪接、RNA的编辑、RNA的稳定性,影响mRNA的寿命和降解mRNA等方面扮演着极其重要的角色[3],所以我们对于RNA甲基化的识别研究,有助于揭示细胞发育和疾病等生物学现象,同时还能够帮助医学研究人员设计出影响基因表达、杀死或控制疾病的药物。
/
图11 可逆的m6A形成过程
RNA甲基化是指发生在RNA分子上不同位置的甲基化修饰现象。腺嘌呤第6位氮原子上的甲基化修饰(N6methyladenosine, m6A)是高等生物mRNA中含量最为丰富的修饰之一[14]。m6A是真核生物mRNA内部序列中最常见的一种甲基化修饰,这种修饰在细胞内是一个动态可逆的过程,它是由至少包含一个亚基的甲基转移酶催化形成的转移酶复合物,可逆的m6A甲基化过程如图11所示。早在40年前,人们就发现mRNA上存在腺嘌呤的甲基化修饰(m6A)。这种 m6A 修饰非常普遍,不过当时人们并不清楚这种修饰有何功能。从2012年开始,随着高通量技术的发展,高通量测序与抗体免疫沉淀相结合方法(MeRIPseq或m6Aseq)的出现,使得大规模检测m6A修饰成为可能[3]。近两年,通过在人、小鼠、酵母和拟南芥等系统内的研究,在甲基化动态调控机制的方面取得了较大的进展,并发现m6A可能会直接或间接影响mRNA的核转运、翻译和降解等。最近的研究表明m6A甲基化可以影响昼夜节律、细胞分裂和胚胎干细胞增殖从而参与各种病理生理过程,然而m6A对RNA的调控和参与细胞重编程的机制尚不清楚。
DNA和组蛋白的表观遗传学修饰主要在转录水平上起作用,可逆的RNA甲基化主要在转录后水平上调控基因表达[1]。且DNA、RNA和蛋白质均使用相同的化学修饰控制基因表达,所以RNA甲基化可以与DNA、组蛋白的表观遗传学修饰相提并论。然而人们对RNA甲基化的研究却远不如对DNA甲基化和蛋白质甲基化的研究。RNA甲基化种类繁多,也普遍存在于各种高级生物中,但是由于多年来大家都不太重视,且缺乏有效的检测手段,故RNA甲基化的相关研究一直停滞不前。因此加快RNA甲基化识别的研究,促进对高级生物中RNA甲基化功能的研究,是十分重要的且十分迫切的。
1.2 国内外研究现状
生物信息学中,最具挑战性的难题是如何将一个具体的生物序列表示成为具体的模型或向量,这个模型或向量需要保持生物序列中的准确且有序信息,不仅如此,还要能够抓住生物序列的主要特征。这是因为几乎所有的现有机器只能处理向量而不是生物序列样本。
在蛋白质的甲基化实验中,氨基酸成分法和PseAAC[2931]取得了很大成功,并被广泛应用于计算蛋白质组学等方面的研究。
在DNA甲基化的实验中,kmers[23]和gapped kmers[24]都成功应用于预测调控序列上,并取得了可喜的成果[2325]。同时对Chou提出的 PseAAC[31]进行拓展延伸,设计了称为PseKNC或伪Ktuple核苷酸组成的方法,使用它解决一些DNA上的重要问题,而且创建了与它相关的服务网站。[7,2628]
在RNA甲基化的实验过程中,需要对RNA序列进行特征提取,将RNA序列表示成为离散的、数值的、计算机可处理的向量,采用SVM分类器对特征提取出的特征向量进行学习,构建预测模型。由于对RNA甲基化的研究过少,目前的提出的特征提取方法都不能很好的表示RNA序列。所以,在RNA序列甲基化识别研究过程中,存在大量的问题:
第一、RNA序列的特征提取,怎样才能准确的提取出基准数据集中RNA序列特征。
第二、分类器,如何突破技术瓶颈,创建出一种更好的、更能将被甲基化的RNA和未被甲基化的RNA分开的分类器;或是怎样选出一种好的分类器用在对RNA序列的学习和预测上。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/749.html