统计特征的m6a甲基化位点识别研究(附件)【字数:8268】

摘 要摘 要社会不断进步,在信息技术计算机的蓬勃发展下,科学家们将研究生物体生命跟计算机一起结合起来,于是两种学科结合一下衍生出了现在的生物信息学。所以顾名思义,这门学科就是运用计算机对生物的信息进行处理和分析,从而加快了对信息的判断。有了这门学科,科学家们处理生命中的信息效率会大大加快,所以也加快了他们的研究进度。同样,RNA的甲基化位点的识别和研究就需要这种多基础,多功能结合的新兴学科来解决。想要在计算机中完整的表现出RNA的属性特征,就要需要各种各样的统计的方法。应用这种方法,对相关的RNA进行特征的提取,然后通过计算机再对特征向量进行识别。在本文中,会提及到三种方法,分别是NC法,基于统计特征的PSNP法,基于统计特征的PSDP法。利用这三种方法可以很好的识别出RNA的m6A位点, 当我们在识别RNA的甲基化时,首先需要构造的是RNA序列的特征向量,位置的特异性,以及对称的结构都可以作为提取特征向量的方式,但是,如果按照这样的方法去操作,或许会造成预测的精度不是很高。开发出能识别m6A的分布的新方法,将加速全基因组m 6 A检测。在本研究中,我们分别使用了NC法,基于统计特征的PSNP法,基于统计特征的PSDP法来识别识别m6A位点,这样最终得到的结果可以保证比单个属性提取出来的特征向量所得的结果更优越。关键词:支持向量机(SVM);RNA甲基化;序列集;统计特征
目 录
第一章 绪 论 6
1.1 RNA甲基化研究的背景和意义 6
1.2 RNA甲基化国内外研究现状 6
1.3 论文主要工作 7
第二章 RNA概述及甲基化识别 8
2.1 RNA的含义及表达方式 8
2.2 RNA的属性及特征向量的构造方法 8
2.3 确定RNA序列集 10
2.4 支持向量机简介 11
2.5 绩效评价 11
2.6 交叉验证测试 12
第三章 实验方法概述 14
3.1 NC法 14
3.2 基于统计特征的PSNP法 14
3.3 基于统计特征的PSDP法 16
第四章 结果与讨论 18
4.1 数据 *好棒文|www.hbsrm.com +Q: ¥351916072¥ 
测试结果及结论 18
4.2 现阶段预测及展望 18
结 语 20
致 谢 21
参考文献 22
绪 论
1.1 RNA甲基化研究的背景和意义
在高等生物里面,含量最多的并且以甲基化的形式存在的,那就是6甲基腺嘌呤,英文名N6methyladenosine,简称m6A[1]。其中,SAM类的甲基化转移酶经过催化作用形成了它的甲基化。m6A是信使RNA中的主要的甲基化形式,据目前研究得知,可能会参与信使RNA剪接、运输等加工的过程,但是信使RNA中m6A在生物学领域到底有什么用途并不是很清晰。科学家们从生化、基因组学、细胞学和模式生物学的多元化水平上,发现且确认了第二个m6A得去甲基化酶与FTO同属的加双酶AlkB族的ALKBH5[2],更进一步的说明了可逆信使m6A甲基化调制控制信使RNA的表达水平和RNA代谢的过程;ALKBH5提高了小鼠生精小管的细胞中的信使RNA的m6A甲基化水平,进而造成了睾丸的萎缩,精子数量的减少,质量的降低,生育率的降低等病变,证实由ALKBH5介导的RNA?m6A去甲基化调节控控精子发育等重要的生理功能[3]。
利用本文中提到的几种方法,这样可以改善了在规定的特征下的核苷酸性质的子集表示的方法,以此来提高m6A位点上面的预测性能。
m6A 在许多重要的方面起着至关重要的作用来调节基因表达的生物过程。由于它广泛的分布在基因组中,从RNA序列鉴定的m6A位点的识别对于更好的了解m6A的调节机制具有重要的意义[2]。本次研究是基于统计学的原理对m6A甲基化位点进行识别、预测等研究。
1.2 RNA甲基化国内外研究现状
其实,在信使RNA上面的腺嘌呤就有这个m6A,很早之前人们就发现了。
这几年,研究人员发现了一种RNA甲基化,是可逆性的。紧接着,科学家们又找到了哺乳动物的转录组中的m6A的位置,研究了这种用在修饰的“读”,“写”和“擦除”的蛋白,发现了m6A经过转录后能够起到一些调节的作用[3]。有个新的技术,这个方法能够得到单核苷酸的分辨率图谱,是美国的康奈尔大学的研究团队发现的。著名的华人生物学家、芝加哥大学的何川教授在m6A研究方面也有重大发现,这其中主要描述的就是m6A RNA的甲基化还有m6A的“写入”蛋白,这些都是存在于真核生物里面的,还有就是在哺乳动物里面,还会存在m6A的“擦除”蛋白,还有m6A的“读取蛋白以及其在生理钟的产生的效应的以外的作用,还有就是m6A在生物学的领域所产生的巨大影响”[4]。
1.3 论文主要工作
先了解经常使用的m6A甲基化位点识别的方法,学习有关统计特征的以及基于物理化学属性的特征识别方法,了解并学会使用SVM分类器,使用MATLAB编写程序来完成实验研究。采用统计的方法提取m6A甲基化数据集上的具有鉴别能力的特征向量,根据特征向量构建一个m6A位点检测的分类预测器,运用Jackknife进行交叉验证,通过Sp、Sn、ACC和MCC等指标对实验结果进行评价。主要内容:
对m6A甲基化位点数据集上的样本抽取统计特征;
构造建立基于特征的分类器,并确定分类器的参数;
对公共数据集采用所设计分类器,进行交叉验证测试;
对于公共数据集的实验所得到的结果进行评价和分析。
第二章 RNA概述
2.1 RNA的含义及表达方式
RNA的主要用途是把遗传信息呈蛋白质方式表达出来,它是利用DNA的一条链,然后通过碱基互补配对原则进行转录得到的,因此,RNA对于生物体的信息传递作用很大[5]。信使RNA的作用是以信使RNA为模板,运用自身所带的氨基酸进行生成蛋白。在病毒里,遗传物质是RNA,植物病毒也是RNA。这几年在还发现了浸染性的致病因子,他们比病毒还要小,都是在植物中发现的,这类致病因子管它叫类病毒.类病毒是一种单链RNA分子,它和病毒不同,是没有蛋白质的外壳的,除此之外,在真核细胞中还有两类RNA,分别是RNA(hnRNA)和RNA(snRNA)[6]。
/ /
腺嘌呤 鸟嘌呤
/ /
尿嘧啶 胞嘧啶

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/sxtj/170.html

好棒文