弹性网方法的全基因组关联分析(源码)
数量性状是大多数人类疾病和动植物的重要性状,想要揭示遗传学本质,就需要将生物个体的性状与基因型相联系。关联分析可以将生物个体的表现型与基因型相联系,利用统计方法在整个基因组上搜索控制数量性状的基因位点(QTL),通过此方法来发现复杂性状的遗传基础。但是目前,全基因组关联分析的方法均是单标记分析方法,即一次只分析一个基因,而忽略了基因之间的联系,又由于基因个数数以万计,而样本容量通常较小(几百),相当于几百个方程解数万个未知数,求解十分麻烦,因此探索全基因组关联分析的参数估计算法是关键。本文采用了基于弹性网方法的全基因组关联分析,在较短时间内得出了与真实值较贴近的结果,从而验证了此方法是可行且高效的。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1 研究背景2
2 研究意义 3
3 原理及方法 3
3.1 遗传统计模型3
3.2 弹性网方法4
3.2.1 原理4
3.2.2 优缺点4
4 仿真实验及结果分析5
4.1 参数估计结果5
4.2 结果分析6
4.2.1 功效6
4.2.2 准确度6
4.2.3 精度7
4.2.4 计算时间7
5讨论7
致谢8
参考文献8
表1 染色体标记位置及效应的真实值与估计值6
基于弹性网方法的全基因组关联分析
引言
引言
弹性网方法是由Lasso方法改进的一种参数估计方法,它基于Lasso方法,进一步引入了系数的二次惩罚,一方面,当遇到微阵列数据时,它能反映出具有组效应(复共线性)的变量对响应变量产生的影响;另一方面,当样本容量远远小于自变量的个数时,它能有效进行变量选择,因此有较高的预测精度。
数量性状在群体中呈连续的分布,只能用数值来衡量其性状表现。农作物的很多重要农艺性状,如产量性状、品质性状、对病虫害的水平抗性等,一般表现为数量性状,它对人类生存和发展十分重要。数量性状不仅遗传机理相对复杂,而且受到 *好棒文|www.hbsrm.com +Q: #351916072#
环境影响时易发生变异。基因型与环境的互作是不遗传的,它同时与遗传变异互存,导致很难区分它们,再加上没有明显的对应关系存在于基因型和表现型之间,这都给数量性状的遗传研究增加了难度。关联分析可以将生物个体的表现型与基因型相联系,利用统计方法在整个基因组上搜索控制数量性状的基因位点,从而揭示复杂性状的遗传基础。起初,关联分析比较多的应用在人类疾病的预防与控制上,与连锁分析相比,关联分析的品种群体一般是自然群体,群体构建时间短,省时省力,而且它能利用自然群体长期进化过程中累积的重组信息,定位结果分辨率更高,结果更精确,甚至可以直接定位到基因本身,近年来在植物遗传研究中应用较为广泛,已成功应用于水稻、玉米等作物的遗传研究中。目前,全基因组关联分析的方法均是单标记分析方法(single marker analysis,SMA),即利用单个遗传标记,开展数量性状与标记间的连锁分析。
1 研究背景
人类和动植物的复杂性状都是多基因控制的数量性状,存在上位性(基因间的相互作用)以及环境互作(基因在不同环境的特异表达)。关联分析可以在整个基因组上搜索控制数量性状的基因位点(QTL),揭示复杂性状的遗传基础。近年来,技术的进步使得大规模分析由单核苷酸多态性(SNP)标记的基因型成为可能,也促进了对人类疾病的全基因组关联分析(GWAS)。这种分析方法脱胎于Risch和Merikangas早期的发现[1],他们认为,与同胞连锁分析的方法相比,关联分析的设计更适用于复杂性状基因的检测。
国际上首个GWAS研究与年龄相关性视网膜黄斑变性有关,2005年,它的研究结果发布在了Science杂志上。在此之后,国内外越来越多的团队加入到了GWAS的研究中,发现了与糖尿病、乳腺癌和自闭症等许多重要疾病相关的基因[2]。随后还出现了商用GWAS平台提供的“基因组覆盖”。使用商用基因分型芯片的研究者希望测定足够多的SNP来保证重要位点基因的良好覆盖度,以适用于某个或某类疾病的关联性研究。例如,针对心血管和成瘾性疾病[3],进行了一定覆盖度的研究,为基因分型芯片开发相应资源。
2009年,我国发表了第一篇GWAS论文,发现了银屑病的易感基因[4]。我国的GWAS研究虽然起步晚,但是发展较快。目前为止,通过GMAS方法,我国学者已经确定了许多疾病发病的易感区域、SNP 变异、相关基因、致病基因,共计发表了约一万篇论文,得出了关于几十种威胁人类健康的常见疾病的主要性状的分析结果。
关联分析定位QTL的基本原理是通过检测标记与性状的关联程度,来判断有无与标记连锁的性状基因或QTL。GWAS中的数据分析策略和步骤主要是这样的:(1)数据清理:数据清理分两个部分,一个部分是针对变量(即SNP),另一个部分是针对个体(即样品)。在GWAS中,决定基因型的标记很重要。因为SNP的错误率较低,适用于进行高通量基因分型,所以它成为了关联分析标记的合适选择。对于候选基因的研究,通常选取自定义的SNP。用于等位基因SNP位点关联的标签SNP选择方法通常采用连锁不平衡型(LD)。在两个位点的等位基因的共现频率不同于单独分类下的预期时,LD会发生。常用的LD分析方法不需要明确标记从多个SNP得来的单体型。该方法衡量成对的LD(对于基因型数据,通常需要评估两个位点单体型概率)来决定一组标记中,哪些可以根据成对相关性代替未发现标记。(2)关联研究:经过严格的数据清理后,就可以对清理后的数据进行关联性分析。此过程中需要考虑生物学模式与统计学模型的选择、协变量调整和多重比较等问题。(3)验证研究:初期的GWAS是探索性研究,为了验证GWAS的发现,控制假阳性(对于QTL定位来讲,如果一个位置上没有QTL存在,但由于随机误差的影响,这个位置上的lod值可能超过给定的临界值,从而错误的判断这个位置上存在QTL,这样的QTL称为假阳性QTL),常常采用多阶段研究(multistage procedure),即第一阶段通过GWAS选出少量阳性SNP,在后面的阶段中,在另外一个或几个独立的研究样本中对这些阳性结果进行验证。多阶段研究既能降低研究成本,又能有效控制假阳性结果,提高检验效能。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1 研究背景2
2 研究意义 3
3 原理及方法 3
3.1 遗传统计模型3
3.2 弹性网方法4
3.2.1 原理4
3.2.2 优缺点4
4 仿真实验及结果分析5
4.1 参数估计结果5
4.2 结果分析6
4.2.1 功效6
4.2.2 准确度6
4.2.3 精度7
4.2.4 计算时间7
5讨论7
致谢8
参考文献8
表1 染色体标记位置及效应的真实值与估计值6
基于弹性网方法的全基因组关联分析
引言
引言
弹性网方法是由Lasso方法改进的一种参数估计方法,它基于Lasso方法,进一步引入了系数的二次惩罚,一方面,当遇到微阵列数据时,它能反映出具有组效应(复共线性)的变量对响应变量产生的影响;另一方面,当样本容量远远小于自变量的个数时,它能有效进行变量选择,因此有较高的预测精度。
数量性状在群体中呈连续的分布,只能用数值来衡量其性状表现。农作物的很多重要农艺性状,如产量性状、品质性状、对病虫害的水平抗性等,一般表现为数量性状,它对人类生存和发展十分重要。数量性状不仅遗传机理相对复杂,而且受到 *好棒文|www.hbsrm.com +Q: #351916072#
环境影响时易发生变异。基因型与环境的互作是不遗传的,它同时与遗传变异互存,导致很难区分它们,再加上没有明显的对应关系存在于基因型和表现型之间,这都给数量性状的遗传研究增加了难度。关联分析可以将生物个体的表现型与基因型相联系,利用统计方法在整个基因组上搜索控制数量性状的基因位点,从而揭示复杂性状的遗传基础。起初,关联分析比较多的应用在人类疾病的预防与控制上,与连锁分析相比,关联分析的品种群体一般是自然群体,群体构建时间短,省时省力,而且它能利用自然群体长期进化过程中累积的重组信息,定位结果分辨率更高,结果更精确,甚至可以直接定位到基因本身,近年来在植物遗传研究中应用较为广泛,已成功应用于水稻、玉米等作物的遗传研究中。目前,全基因组关联分析的方法均是单标记分析方法(single marker analysis,SMA),即利用单个遗传标记,开展数量性状与标记间的连锁分析。
1 研究背景
人类和动植物的复杂性状都是多基因控制的数量性状,存在上位性(基因间的相互作用)以及环境互作(基因在不同环境的特异表达)。关联分析可以在整个基因组上搜索控制数量性状的基因位点(QTL),揭示复杂性状的遗传基础。近年来,技术的进步使得大规模分析由单核苷酸多态性(SNP)标记的基因型成为可能,也促进了对人类疾病的全基因组关联分析(GWAS)。这种分析方法脱胎于Risch和Merikangas早期的发现[1],他们认为,与同胞连锁分析的方法相比,关联分析的设计更适用于复杂性状基因的检测。
国际上首个GWAS研究与年龄相关性视网膜黄斑变性有关,2005年,它的研究结果发布在了Science杂志上。在此之后,国内外越来越多的团队加入到了GWAS的研究中,发现了与糖尿病、乳腺癌和自闭症等许多重要疾病相关的基因[2]。随后还出现了商用GWAS平台提供的“基因组覆盖”。使用商用基因分型芯片的研究者希望测定足够多的SNP来保证重要位点基因的良好覆盖度,以适用于某个或某类疾病的关联性研究。例如,针对心血管和成瘾性疾病[3],进行了一定覆盖度的研究,为基因分型芯片开发相应资源。
2009年,我国发表了第一篇GWAS论文,发现了银屑病的易感基因[4]。我国的GWAS研究虽然起步晚,但是发展较快。目前为止,通过GMAS方法,我国学者已经确定了许多疾病发病的易感区域、SNP 变异、相关基因、致病基因,共计发表了约一万篇论文,得出了关于几十种威胁人类健康的常见疾病的主要性状的分析结果。
关联分析定位QTL的基本原理是通过检测标记与性状的关联程度,来判断有无与标记连锁的性状基因或QTL。GWAS中的数据分析策略和步骤主要是这样的:(1)数据清理:数据清理分两个部分,一个部分是针对变量(即SNP),另一个部分是针对个体(即样品)。在GWAS中,决定基因型的标记很重要。因为SNP的错误率较低,适用于进行高通量基因分型,所以它成为了关联分析标记的合适选择。对于候选基因的研究,通常选取自定义的SNP。用于等位基因SNP位点关联的标签SNP选择方法通常采用连锁不平衡型(LD)。在两个位点的等位基因的共现频率不同于单独分类下的预期时,LD会发生。常用的LD分析方法不需要明确标记从多个SNP得来的单体型。该方法衡量成对的LD(对于基因型数据,通常需要评估两个位点单体型概率)来决定一组标记中,哪些可以根据成对相关性代替未发现标记。(2)关联研究:经过严格的数据清理后,就可以对清理后的数据进行关联性分析。此过程中需要考虑生物学模式与统计学模型的选择、协变量调整和多重比较等问题。(3)验证研究:初期的GWAS是探索性研究,为了验证GWAS的发现,控制假阳性(对于QTL定位来讲,如果一个位置上没有QTL存在,但由于随机误差的影响,这个位置上的lod值可能超过给定的临界值,从而错误的判断这个位置上存在QTL,这样的QTL称为假阳性QTL),常常采用多阶段研究(multistage procedure),即第一阶段通过GWAS选出少量阳性SNP,在后面的阶段中,在另外一个或几个独立的研究样本中对这些阳性结果进行验证。多阶段研究既能降低研究成本,又能有效控制假阳性结果,提高检验效能。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1701.html