混合模型的分层贝叶斯方法

随着科技的发展,在生命科学领域中获得的大量的高维数据,使用统计学方法可以从中挖掘数据的潜在规律。混合线性模型是一种重要的统计建模方法,结合分层模型,可以使用足够数量的参数来充分拟合数据,并且通过对多个参数施加统一的先验分布又能够使它们之间具有一定的的依赖性,从而避免过拟合问题。本文在分层模型下对于超参数使用贝叶斯后验众数估计,进而得到回归系数的估计值。将正态分布分配给回归系数作为先验分布,再将超先验分布进一步分配给其中的超参数,此时超参数可以从数据中估计出来。我们采用一种EM算法来估计超参数,该算法的效果将通过仿真实验给出。结合基因科学,本文所用的方法可以估计基因值和通过基因值的线性对比来表现的数量形状基因位(QTL)效应。
目录
摘要 1
关键词 1
Abstract 1
Key words 1
引言 2
1 研究意义及背景 2
1.1 研究意义 2
1.2 国内外研究背景 2
2 模型及方法简介 3
2.1 混合线性模型介绍 3
2.2 主要方法介绍——分层贝叶斯方法 5
3 理论及方法 6
3.1 建立模型 6
3.2 先验分布 6
3.3 后验众数 7
3.4 最佳线性无偏估计 8
3.5 EM算法步骤 9
4 仿真实验及结果分析 9
4.1 实验结果 9
4.2 总结 10
致谢 11
参考文献 11
附录 13
基于混合模型的分层贝叶斯方法
引言
引言
随着现代科学技术的迅猛发展,在生命科学领域中,研究人员获得了大量的高维数据,若要探寻数据中的潜在规律和有效信息,就需要使用统计学方法。
混合线性模型是一类非常重要的线性统计模型,它将固定效应模型与随机效应模型相结合,来解释在同一群体内观测资料的相关性及差异性。近年来混合线性模型在生物、医学、经济、金融、环境科学及工程技术等领域得到了广泛关注和应用。
分层模型适用于描述多个模型参数以一定结构相互联 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
系的情况。当模型参数个数太少时,非分层模型不能很好的拟合大数据集,而当参数个数太多的时候容易对数据过拟合,模型的泛化能力较差。在利用混合模型处理基因定位问题时,由于标记的数量有可能要远远大于样本数量,这使得最小二乘、极大似然估计等无法使用。在这种情况下可以引入贝叶斯方法。
1 研究意义及背景
1.1 研究意义
在统计建模中,常使用的方法主要有方差分析和回归分析,但是这些方法在使用时都需要以独立性、正态性、方差齐性为基本假定。与之不同的是,在混合模型中,残差项可以不符合独立性的假定,同时还可以结合不同类型的分布处理复杂数据结构。在处理重复测量数据、区组数据以及空间相关数据时,线性混合效应模型具有独特的优势。它突破了多元分析中协方差阵无结构假设和线性模型下协方差阵除一个标量外完全已知的苛刻要求,可以根据数据本身的结构特点,较为灵活地选择其协方差阵的结构[1]。
分层模型可以使用足够数量的参数来充分拟合数据,并且通过对多个参数施加统一的群体分布又能够使它们之间具有一定的依赖性,从而避免过拟合问题[2]。若不使用分层模型,当模型参数个数太少时,对数据的拟合不够充分,得到信息并不准确,误差较大;当参数个数太多的时候容易对数据过度拟合,模型的泛化能力较差。
在使用混合线性模型处理实际问题时,往往会产生数据维数过高的情况,模型中变量的个数远远大于样本容量,这时最小二乘法、最大似然估计法无法应用。在这种情况下,贝叶斯方法是一种明智的替换方法。
本文结合遗传学数据的特征并建立混合线性模型,对模型中的回归系数使用分层贝叶斯方法进行参数估计。并通过分析模拟数据证实了该方法的有效性。
1.2 国内外研究背景
20世纪70年代,在相关文献中出现了混合效应模型的概念,直到1982年,美国哈佛大学教授Laird和Ware[3]在Biometrics杂志上发表了第一篇完整描述混合效应模型的文章之后,该模型才引起了众多研究者的关注[4]。
在前人的分析中随机系数模型分为两阶段进行。通过对重复测量资料的分析研究,Laird和Ware提出了利用两水平随机系数模型来处理重复测量资料的方法,并探讨了运用基于EM算法的最大似然法估计参数[6]。协方差类型模型的主要起源为时间序列模型。1986年,Jennrich和Schluchter[5]使用了几类不同的协方差类型模型来研究分析重复测量资料,并叙述了协方差结构的选择标准。
在很长一段时间内,数据聚集性和相关性问题困扰着统计学界,最近二十年来,由于混合效应模型解决了该问题,因此包括随机效应模型(random effects model)、协方差类模型(covariance pattern model)、随机系数模型(random coefficients model)在内的各种类型混合模型的理论和实践都得到了迅速的发展,并且成为了统计学界分析方法研究的热点之一。[6]
在利用混合模型处理基因定位问题时,由于标记的数量有可能要远远大于样本数量,这使得最小二乘、极大似然估计无法使用。岭回归是处理高维回归模型的一种方法,并且已经在基因定位中应用。然而普通岭回归的处理结果并不理想,因为所有的回归系数都采用了相同的压缩系数。2003年,Xu[15]提出了一种压缩贝叶斯方法来估计基因效应,在该方法中,不同的回归系数有不同的压缩因子。这种选择性压缩分析适用于大回归系数,效果要远远好于经典的岭回归。但当样本量大、模型大时,算法时间很长。在保留最终模型的期望稀疏性的情况下,Xu在2007年[7]研究了经典贝叶斯方法来提高算法效率。2010年,Xu又提出了更加优化的Lasso(The least absolute shrinkage and selection operator)方法[8]。
分层线性模型这个称呼在1972年由Lindley和Smith提出[18],有一段时间他们的研究停滞不前,是因为其模型的应用需要对非平衡数据进行协方差估计。在1970年代早期,他们的模型只能解决一些极简单的问题,提供一个通用的方法尚不可能。1977年,由于Dempster、Laird和Rubin[11]在EM算法上的进展,这一技术障碍被成功突破,形成了既在概念上切实可行,又可以广泛应用的协方差成分估计方法。后来,又产生了其他通过迭代再加权的一般最小二乘法的协方差成分估计方法[19]和fisher得分算法[20],现在已经有好多统计计算程序来拟合这些模型,包括HLM、MIXOR、MLWIN、SAS子程序Proc Mixed、VARCL,完全贝叶斯也已经由Gelfand等人和Seltzer研制出来,相应的软件如BUGS现在也得到了广泛的应用[17]。
2 模型及方法简介
2.1 混合线性模型介绍
混合效应模型中考虑了两种效应,固定效应和随机效应。在试验设计中,因素是指可能对应变量有影响的分类变量,也被称为因子,而分类变量的不同取值等级或类别就被称为水平。效应是指该因子的各水平对所研究变量的影响。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1830.html

好棒文