拟南芥和荷花cystatin基因家族的生物信息学分析
多种植物体内存在有半胱氨酸蛋白酶抑制剂(cystatin)基因,这些基因对某些病原微生物具有抑制作用,对部分以半胱氨酸蛋白酶为主要消化酶的昆虫具有防治作用。它是植物防卫体系的重要成分,具有研究价值。本实验以拟南芥和荷花的cystatin基因为研究对象,通过已获得的植物cystatin结构域的检索,对它们进行了基因组范围内的基本鉴定。经过结构域的检索鉴定、系统发生树的构建、多序列联配以及保守基序的鉴定分析确定了7个拟南芥和6个荷花的cystatin基因。保守序列分析证明cystatin结构域在蛋白中是高度保守的;系统发生分析表明在荷花、拟南芥和水稻分离之前,cystatin基因家族的结构特征就已经形成并进行了特异性扩张。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1□材料与方法2
1.1□数据库的搜索2
1.2□序列分析2
1.3□亚族间的功能性分歧分析2
1.4□正选择作用分析2
2□结果与分析3
2.1□荷花和拟南芥中的cystatin基因3
2.2□荷花、拟南芥和水稻中cystatin蛋白的保守序列分析5
2.3□系统发生分析7
2.4□亚族之间的功能性分歧 8
2.5□荷花、拟南芥和水稻cystatin基因正选择位点的检验8
3□讨论10
致谢11
参考文献11
拟南芥和荷花Cystatin基因家族的生物信息学分析
引言
蛋白酶抑制剂广泛的存在于植物物种内,它可以有效降低蛋白酶的水解活性,调节蛋白酶的生理活性,还能对蛋白代谢起到某些影响作用。半胱氨酸蛋白酶抑制剂(cystatin)是其中的一类,而它的相关研究目前并不是非常丰富。半胱氨酸蛋白酶抑制剂(cystatin)广泛地分布在自然界中,在多种动植物,微生物体内都有发现,它是一个由与进化相关的蛋白所构成的亚族,参与了多种动植物的生理活动并对它们产生不同程度的影响[1]。
半胱氨酸蛋白酶的第一次发现是在20世纪60年代末,Fossum和Whita *好棒文|www.hbsrm.com +Q: ¥351916072$
ker[2]在研究中发现鸡蛋清中含有某种能够对木瓜蛋白酶、无花果蛋白酶以及二肽酶活性产生抑制作用的蛋白质类物质,并成功的将其分离出来,得到了半胱氨酸蛋白酶抑制剂。“cystatin”这一名称是由20世纪80年代早期Anastasi等[3]研究者确立的,他们第一次通过亲和层析法成功将半胱氨酸蛋白酶抑制剂分离出来。在这之后,又有许多专家学者对此进行相关研究,研究对象也涉及了动物、植物、微生物中的多个物种,从中分离得到了cystatin基因,构成了一个超家族[4]。
本研究以拟南芥和荷花的cystatin基因为研究对象,通过对已获得的植物cystatin结构域的检索,对它们进行了基因组范围内的基本鉴定,分析得出拟南芥和荷花cystatin基因的基本信息;对拟南芥、水稻和荷花中cystatin基因所编码的蛋白质进行多序列连配,并构建系统发生树,比较拟南芥、水稻和荷花之间的进化关系;对拟南芥和荷花的cystatin蛋白通过Pfam进行结构域检测,获取信号肽区段,通过MEME分析得到保守基序以及它们在蛋白质中的位置。
已有的研究表明,拟南芥中cystatin基因的探索进行的比较深入,也发现它在保卫植物体避免遭受病原体或昆虫的侵害方面有积极的作用[5],而对于荷花cystatin基因的研究目前还相对缺乏,以期经过以上生物信息学方法的分析,对荷花和拟南芥cystatin基因有一个大致的比较和基本了解,为进一步的相关研究奠定基础。
1 材料与方法
1.1 数据库的搜索
通过检索美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)数据库,获取了植物中分离出的cystatin基因超家族以及它们编码的蛋白质序列。通过Pfam[6]软件对这些基因进行预测,得到蛋白质序列的cystatin结构域,并把它们作为目标检索物,在TIGR数据库中的荷花基因组数据库中进行搜索,获得相似的蛋白质序列,其中E值≤1010的蛋白质序列即可作为候选蛋白。在这些已经得到的荷花候选蛋白的cystatin结构域中再次使用Pfam软件进行预测,如果结果中有cystatin结构域,即可认为该候选蛋白来自于cystatin蛋白家族,如果没有测出,此蛋白就不能被认为是来自cystatin蛋白家族的。将从荷花中得到的cystatin结构域序列作为目标检索序列,在TIGR数据库中的拟南芥全基因组数据库中搜索,获得相似的蛋白质序列,其中E值≤1010的蛋白质序列即可作为候选蛋白。再次通过Pfam软件进行预测,并将获得的基因当作目标检索序列,重复进行上述检索操作,直到无法获取新的检索结果,至此得到所需的基因数据,完成检索后从TGIR数据库获得DNA和蛋白质序列。
1.2 序列分析
完成数据库的搜索以后,使用ClustalX 1.83对获得的拟南芥和荷花cystatin基因家族的氨基酸序列进行多重序列比对分析,这是构建系统发生树的前提。将获取的序列载入程序中,对其进行编辑,设置参数为默认,然后完成比对得到多序列联配的保守区段。使用MEGA 4软件[7]对cystatin蛋白家族的氨基酸序列构建系统发生树,默认设置,选择主界面Phylogeny菜单中的NeighborJoining方法,运行程序得到系统发生树,然后通过Tree View 1.6.1[8]软件将其显示出来。将得到的cystatin蛋白家族的氨基酸序列放入MEME软件[9]中,设置最大基序数为50,然后系统会自动寻找所有潜在的基序(motif)。
1.3 亚族间的功能性分歧分析
Diverge软件可以通过多种方法评估两条编码序列每个位点的同义码和不同义码的置换个数。将cystatin两个亚族的基因放入Diverge软件,通过Gu的方法对其进行极大似然法估计,测得两亚族间的功能性分歧系数以及似然比测验统计数。通过卡方测验(将自由度设置为1)分析两亚族之间的位点特异性差异。
1.4 正选择作用分析
正选择位点分析中所使用的极大似然法以及密码子替换模型是由Yang等[11,12,17]研究并发展的。将待测的蛋白质序列进行多序列联配,通过PAL2NAL软件[13]将其转换为编码序列的多序列联配,并将这一过程中产生的空位(gap)去除。然后使用PAML 4软件[14]的CODEML程序计算相应的dN/dS (ω),其中dN为核苷酸的非同义替换率,dS为同义替换率,二者比值(dN/dS)是衡量选择压力的分子进化参数,常用ω表示。若ω>1则认为此节点的序列经历正选择压力;若ω<1则认为此节点序列经历纯化选择压力;而ω=1则代表中性选择或自然选择压力。在蛋白质的系统发生树和序列对位排列结果的基础上,选择“位点特异性”模型(sitespecific model)方法来鉴定蛋白质序列中经历正选择作用的系统发生树节点和氨基酸位点。如果似然比结果(2Δl)基本遵循卡方分布,其自由度为两个模型间自由参数之差[15,16],就可以通过似然比测验(LRT)来分析嵌套间差异的显著性。本次实验通过计算M3(离散模型)对M0(单个ω)模型的似然比来检测位点间是否具有选择压力的差异;由于M8添加了一类ω>1的位点,因此可以通过计算M8对M7模型的似然比来检测位点间是否具有正选择压力,其中M7和M8模型都使用离散β分布(用参数p和q描述)来估计每个位点的ω值。若结果显示M8对M7的统计检验达到显著水平且M8模型具有极大似然估计值ω>1,再使用贝叶斯的后验概率分布方法估计经历正选择作用的位点[17]。
目录
摘要1
关键词1
Abstract1
Key words1
引言1
1□材料与方法2
1.1□数据库的搜索2
1.2□序列分析2
1.3□亚族间的功能性分歧分析2
1.4□正选择作用分析2
2□结果与分析3
2.1□荷花和拟南芥中的cystatin基因3
2.2□荷花、拟南芥和水稻中cystatin蛋白的保守序列分析5
2.3□系统发生分析7
2.4□亚族之间的功能性分歧 8
2.5□荷花、拟南芥和水稻cystatin基因正选择位点的检验8
3□讨论10
致谢11
参考文献11
拟南芥和荷花Cystatin基因家族的生物信息学分析
引言
蛋白酶抑制剂广泛的存在于植物物种内,它可以有效降低蛋白酶的水解活性,调节蛋白酶的生理活性,还能对蛋白代谢起到某些影响作用。半胱氨酸蛋白酶抑制剂(cystatin)是其中的一类,而它的相关研究目前并不是非常丰富。半胱氨酸蛋白酶抑制剂(cystatin)广泛地分布在自然界中,在多种动植物,微生物体内都有发现,它是一个由与进化相关的蛋白所构成的亚族,参与了多种动植物的生理活动并对它们产生不同程度的影响[1]。
半胱氨酸蛋白酶的第一次发现是在20世纪60年代末,Fossum和Whita *好棒文|www.hbsrm.com +Q: ¥351916072$
ker[2]在研究中发现鸡蛋清中含有某种能够对木瓜蛋白酶、无花果蛋白酶以及二肽酶活性产生抑制作用的蛋白质类物质,并成功的将其分离出来,得到了半胱氨酸蛋白酶抑制剂。“cystatin”这一名称是由20世纪80年代早期Anastasi等[3]研究者确立的,他们第一次通过亲和层析法成功将半胱氨酸蛋白酶抑制剂分离出来。在这之后,又有许多专家学者对此进行相关研究,研究对象也涉及了动物、植物、微生物中的多个物种,从中分离得到了cystatin基因,构成了一个超家族[4]。
本研究以拟南芥和荷花的cystatin基因为研究对象,通过对已获得的植物cystatin结构域的检索,对它们进行了基因组范围内的基本鉴定,分析得出拟南芥和荷花cystatin基因的基本信息;对拟南芥、水稻和荷花中cystatin基因所编码的蛋白质进行多序列连配,并构建系统发生树,比较拟南芥、水稻和荷花之间的进化关系;对拟南芥和荷花的cystatin蛋白通过Pfam进行结构域检测,获取信号肽区段,通过MEME分析得到保守基序以及它们在蛋白质中的位置。
已有的研究表明,拟南芥中cystatin基因的探索进行的比较深入,也发现它在保卫植物体避免遭受病原体或昆虫的侵害方面有积极的作用[5],而对于荷花cystatin基因的研究目前还相对缺乏,以期经过以上生物信息学方法的分析,对荷花和拟南芥cystatin基因有一个大致的比较和基本了解,为进一步的相关研究奠定基础。
1 材料与方法
1.1 数据库的搜索
通过检索美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)数据库,获取了植物中分离出的cystatin基因超家族以及它们编码的蛋白质序列。通过Pfam[6]软件对这些基因进行预测,得到蛋白质序列的cystatin结构域,并把它们作为目标检索物,在TIGR数据库中的荷花基因组数据库中进行搜索,获得相似的蛋白质序列,其中E值≤1010的蛋白质序列即可作为候选蛋白。在这些已经得到的荷花候选蛋白的cystatin结构域中再次使用Pfam软件进行预测,如果结果中有cystatin结构域,即可认为该候选蛋白来自于cystatin蛋白家族,如果没有测出,此蛋白就不能被认为是来自cystatin蛋白家族的。将从荷花中得到的cystatin结构域序列作为目标检索序列,在TIGR数据库中的拟南芥全基因组数据库中搜索,获得相似的蛋白质序列,其中E值≤1010的蛋白质序列即可作为候选蛋白。再次通过Pfam软件进行预测,并将获得的基因当作目标检索序列,重复进行上述检索操作,直到无法获取新的检索结果,至此得到所需的基因数据,完成检索后从TGIR数据库获得DNA和蛋白质序列。
1.2 序列分析
完成数据库的搜索以后,使用ClustalX 1.83对获得的拟南芥和荷花cystatin基因家族的氨基酸序列进行多重序列比对分析,这是构建系统发生树的前提。将获取的序列载入程序中,对其进行编辑,设置参数为默认,然后完成比对得到多序列联配的保守区段。使用MEGA 4软件[7]对cystatin蛋白家族的氨基酸序列构建系统发生树,默认设置,选择主界面Phylogeny菜单中的NeighborJoining方法,运行程序得到系统发生树,然后通过Tree View 1.6.1[8]软件将其显示出来。将得到的cystatin蛋白家族的氨基酸序列放入MEME软件[9]中,设置最大基序数为50,然后系统会自动寻找所有潜在的基序(motif)。
1.3 亚族间的功能性分歧分析
Diverge软件可以通过多种方法评估两条编码序列每个位点的同义码和不同义码的置换个数。将cystatin两个亚族的基因放入Diverge软件,通过Gu的方法对其进行极大似然法估计,测得两亚族间的功能性分歧系数以及似然比测验统计数。通过卡方测验(将自由度设置为1)分析两亚族之间的位点特异性差异。
1.4 正选择作用分析
正选择位点分析中所使用的极大似然法以及密码子替换模型是由Yang等[11,12,17]研究并发展的。将待测的蛋白质序列进行多序列联配,通过PAL2NAL软件[13]将其转换为编码序列的多序列联配,并将这一过程中产生的空位(gap)去除。然后使用PAML 4软件[14]的CODEML程序计算相应的dN/dS (ω),其中dN为核苷酸的非同义替换率,dS为同义替换率,二者比值(dN/dS)是衡量选择压力的分子进化参数,常用ω表示。若ω>1则认为此节点的序列经历正选择压力;若ω<1则认为此节点序列经历纯化选择压力;而ω=1则代表中性选择或自然选择压力。在蛋白质的系统发生树和序列对位排列结果的基础上,选择“位点特异性”模型(sitespecific model)方法来鉴定蛋白质序列中经历正选择作用的系统发生树节点和氨基酸位点。如果似然比结果(2Δl)基本遵循卡方分布,其自由度为两个模型间自由参数之差[15,16],就可以通过似然比测验(LRT)来分析嵌套间差异的显著性。本次实验通过计算M3(离散模型)对M0(单个ω)模型的似然比来检测位点间是否具有选择压力的差异;由于M8添加了一类ω>1的位点,因此可以通过计算M8对M7模型的似然比来检测位点间是否具有正选择压力,其中M7和M8模型都使用离散β分布(用参数p和q描述)来估计每个位点的ω值。若结果显示M8对M7的统计检验达到显著水平且M8模型具有极大似然估计值ω>1,再使用贝叶斯的后验概率分布方法估计经历正选择作用的位点[17]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/nongxue/yy/105.html