贝叶斯分层模型的基因定位方法

摘要:随着科学技术的不断发展,贝叶斯方法逐渐完善,并成为稳定性强、精度高的优于其他统计学方法的重要统计工具,被许多的专家学者广泛的认可。在贝叶斯方法的基础之上,我们采用分层模型来处理稀疏数据,通过对跨度很大的数据进行分层处理,将复杂的问题简单化,更利于实验的进行。并利用目前参数估计的最优方法,极大似然估计方法进行迭代,来消除模型中的超参数。实验过程中采用基因定位的方法进行仿真模拟试验,在遗传学的研究中,基因定位是一个非常重要的环节。通过这个环节,可以发现生物基因在染色体上的位置和生理功能的关系。在得出实验数据后,通过对实验结果的横向以及纵向的比较分析,证实了本研究结果的可靠性,为实际基因定位提供了理论依据。
目录
摘要1
关键词1
Abstract1
Key words1
引言2
1 研究意义及背景2
1.1 研究意义 2
1.2 国内外研究背景 2
2理论及模型基础3
2.1贝叶斯方法3
2.1.1贝叶斯公式3
2.1.2贝叶斯公式的密度函数形式3
2.1.3贝叶斯估计4
2.2分层模型4
3理论及方法5
3.1上位性效应模型 5
3.2惩罚似然函数5
3.3参数估计6
4 仿真实验及结果分析8
4.1 实验结果8
4.2结果分析9
4.3结论10
致谢10
参考文献11
基于贝叶斯分层模型的基因定位方法
信息与计算科学 陈宇漩
引言
引言
贝叶斯理论作为统计学中的一个非常重要的内容,同时它也是贝叶斯学派中的理论基石和核心,在实际生活中有着非常重要的地位和作用。贝叶斯估计是综合总体信息、样本信息和先验信息对参数进行后验估计的一种估计方法,他综合了一切可以利用的信息,比传统方法更接近未知参数的真实情况。贝叶斯方法作为后起之秀,在实践中赢得了广泛的关注和应用,提出了很多有效的方法。这些方法的发展都是从简单到复杂,估计的精确度也在不断提高,稳定性也非常的好,因
 *好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2 
此贝叶斯方法的接受度越来越高。
在遗传学的研究中,基因定位是一个非常重要的环节。通过这一个环节,可以发现生物基因在染色体上的位置和生理功能这两者之间的联系。基因定位的方法是,通过选定某一条染色体的某一个基因并对这个基因进行标记,从而达到追踪这条染色体的目的,进一步研究这条染色体的行为。基因定位对于生物进化、医学、遗传学研究都有十分重要的意义。他可以提供遗传病和其他疾病的遗传信息,可以指导对这些疾病的致病基因的克隆和对病症病因的认识和分析。通过多态位点标记进行连锁分析获得物理图的位置有助于遗传作图,使基因定位更为精准、高效[1]。
1. 研究意义及背景
1.1 研究意义
将贝叶斯方法与多层先验分布结合起来,可以得到一种新的构造方法,用贝叶斯方法来完成模型的估计,通过多层次的方式将模型表示出来。通过这种方法,我们不仅可以综合利用更多信息,使得先验分布更接近真实情况,更重要的是模型中可以有超参数的存在[2]。并自动考虑不确定参数估计中的误差对分析结果带来的影响,因此非常适用于解决数据获取困难或者高维建模的问题[3]。
把在生活中我们遇到的问题转化成实际的模型,一般分析起来都比较困难。分层建模这种方式就很好的解决了这个问题,它可以将复杂的问题进行分解,使其成为彼此联系的相对简单的部分,为科学研究提供了一种可行的方式。到目前为止,我们在环境科学、生态学、经济学、社会学中都可以看到分层模型的身影。
贝叶斯分层模型可以综合利用数据子样本的信息以及所有组群的总信息。它能够从所有组群中获取实验需要的总信息之后,完成样本量小的数据的统计估计[4]。
1.2 国内外研究背景
贝叶斯统计诞生于英国学者贝叶斯(Byes,T.R.1702(?)~1761)的一篇文章“论有关机遇问题的求解”[5]。贝叶斯公式在这篇文章中首先出现在大众视野当中,贝叶斯提出了一种推理方法。但是就像所有新事物一样,被广泛的接受都需要一个过程,由于贝叶斯方法的理论不成熟,在实际应用中暴露出了各种各样的问题,当时的接受度不高。在之后的一段时间里,在众多贝叶斯学者的努力研究下,贝叶斯统计逐渐趋于成熟,并发展成为被广大专家学者接纳的一种重要的统计方法。在这段时期内,我们可以从众多的科学领域里发现贝叶斯统计的广泛应用。随着贝叶斯理论的发展,人们对贝叶斯理论的研究越来越深入,相关的著作以及国际会议如雨后春笋般涌出。如今,贝叶斯学派已经成为统计学中举足轻重的一部分,是国际社会研究的热点[6]。
分层模型作为一种新的统计分析技术被迅速的推广应用。分层模型扩展了传统线性模型以及非线性模型处理数据的范围,通过对数据进行分层,使得一些不满足独立性假设但是有一定层次的数据能够应用到实验中,让实验数据得到充分的利用,一些复杂的问题能够得以解决[7]。
当数据服从正态分布并且能描述呈线性结构时,线性模型在回归分析、纵向数据及时间序列分析中,有着极其广泛的应用。但当数据不服从正态分布时,线性模型应用起来就会受到阻碍,因此便推广出了适用于连续和离散数据,特别是离散数据的建立在一般正态线性模型基础之上的广义线性模型,这在医学、生物、社会数据和经济的统计分析上,都有重要的意义[8]。
极大似然估计法在目前的科学领域中被广泛的应用,是目前最好的参数估计方法,具有一系列的优良性质,便于实验的进行,本文也将在实验中应用极大似然估计法进行研究[9]。
2.理论及模型基础
2.1贝叶斯方法
2.1.1贝叶斯公式[10]
将样本空间分割成,并且是互不相容的,并且有,若,则
 (1.0)
2.1.2贝叶斯公式的密度函数形式
在经典统计中的表示总体依赖于参数的概率函数,当随机变量取定某个值时表示总体的条件概率函数。在实验统计的过程中我们可以收集得到参数的一系列的数据信息,我们可以进一步确定先验分布。从贝叶斯学派的观点看,样本的联合条件概率函数之中结合了总体信息和样本信息
 (1.1)
由于是按先验分布产生的,是根据实际情况估计的,仍然是未知的。为了利用先验信息,对的其他可能的值也要考虑进去,不能只考虑,故要用进行综合,使实验结果更加符合实际,更加准确。因此,我们构造一个联合分布可以把总体信息、样本信息和先验信息三种可用信息都综合进去,进行综合的考虑,样本X和参数的联合分布为
 (1.2)
我们之前所做的所有工作就是要对未知参数作统计推断。有时候没有样本信息,我们只能依据先验分布对做出推断。在得到了样本观测值之后,我们应依据对做出判断。若把作如下分解:

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/xxaq/958.html

好棒文