水稻根系spada分析转运蛋白transporter的小肽

:水稻根系中,小肽会影响植物的发育、繁殖和防御反应等多个方面。然而,目前的搜索工具对小肽的同源性搜索和从头预测有限[1]。因此,迫切需要对两个方面研究,以进一步推动小肽的准确预测。SPADA(Small Peptide Alignment Discovery Application)以同源性为基础,通过给定一个高品质的轮廓排列,得出不同候选序列,能够在基因组水平准确预测小肽。通过SPADA对水稻根系转运蛋白小肽的生物信息分析后,得出水稻根系主要的转运蛋白小肽类别主要为无机离子蛋白酶、阳离子-ATP酶、糖蛋白家族等,对感兴趣的阳离子-ATP酶家族研究,发现其N端保守序列和得出一条编码链可有多个转录本的结论,可为其他类小分子肽研究提供经验,提高不同的蛋白家族的基因组公共数据库中的基因组注释准确性。
目录
摘要3
关键词3
Abstract3
Key words3
引言3
1 材料与方法4
1.1 SPADA 4
1.1.1 预处理4
1.1.2 主题挖掘5
1.1.3 模型预测5
1.1.4 模型的评价与选择6
1.2 水稻根系小分子肽信息6
1.2.1 导出SPADA分析结果6
1.2.2 查询蛋白家族名称6
2 结果与分析6
2.1 关于SPADA6
2.2 水稻根系的转运蛋白6
2.2.1 蛋白序列包含的蛋白家族 6
2.2.2 SPADA结果输出各转录本对应的DNA序列8
2.2.3 SPADA结果输出各转录本对应的DNA序列10
2.3 Cation transporter/ATPase家族分析 10
3 讨论 11
3.1 SPADA的长处与局限 11
3.2 水稻根系的转运蛋白小肽分析12
3. 2. 1 水稻根系转运蛋白12
3. 2. 2 Cation transporter/ATPase家族 12
致谢12
参考文献13
利用SPADA(S
 *好棒文|www.hbsrm.com +Q: #351916072# 
mall Peptide Alignment Discovery
Application)分析水稻根系转运蛋白transporter的小肽
引言
引言
新基因组和新蛋白质序列转化为有用的社会资源的一个主要阻碍是基因和其功能相关的蛋白的准确注释。目前,虽然已经有许多公用数据库和基因预测方法,但一个和二个外显子基因编码的小肽预测仍然顽固地存在问题[1]。由于通用基因发现算法很容易因为特异性差而产生假阳性信号。为解决洪水般的小基因的假阳性信号问题,许多注释器滤除缺乏直接的实验证据支持的小基因预测,从而导致假阴性问题的出现[27]。
SPADA可直接用于用户自己的蛋白质家族比对或从公共来源如PFAM[8],InterPro[9]或PROSITE[10]下载的具有一整套蛋白家族的比对。开发人员描述SPADA的概念基础[11],检查了操作的准确性并重复比较已公布的一系列对这些物种的实验[1417],在先前半自动的综合处理和随后的实验验证表达的基础上[1113],证实了SPADA在区分高难度的小肽方面的优势。
所以,通过SPADA对水稻根系转运蛋白小肽的序列分析和功能预测,我们在了解水稻根系转运蛋白小肽生物信息的同时,可以进一步验证系统运作的正确性,并可进一步校验其他基因家族注解公共数据的正确性,对其进行纠正或补充。
1 材料与方法
1.1 SPADA
SPADA是一个计算传递途径,当用户提供目的基因/蛋白质家族的多序列比对文件时,可识别在基因组中该家族的所有成员。从技术上讲,SPADA的管道是用一两个外显子特异性侦测和注释小肽的一般同源性为基础的基因发现程序。不同于通用基因预测程序如FGENESH,SPADA适用于整个基因家族在同一时间找到所有家庭成员的基因组中的目标序列。不像其他的基于同源性的基因的预测如Genewise和Exonerate 映射的单个蛋白质序列与靶基因组中,SPADA运行使用轮廓对准的相似性搜索并识别家族的所有同源物。此外,SPADA提供自动访问两个相似性搜索工具(例如,BLAST和HMMER)和从头基因预测(例如, Augustus),显著改善多件基因家族的注解效率。SPADA由四个连续部分组成:预处理、基底修饰、模型预测、模型的评价与选择(图11)。

图11 SPADA的工作流程
1.1.1 预处理 先从公共数据库Pfam(http://pfam.xfam.org/search/keyword?
query=transporter)上下载研究水稻根系生物信息所需的序列比对文件:PF00083seed.aln、PF00690seed.aln等(表12)。
表12 实验所用源数据
PF00083seed
PF03547seed
PF00234LTPfull
PF03600seed
PF00690seed
PF03619seed
PF00909seed
PF04142seed
PF00916seed
PF04145seed
PF01061seed
PF04515seed
PF01490seed
PF05653seed
PF01733seed
PF06404.7PSK
PF02535seed
PF06800seed
PF02705seed
PF08370seed
PF03083seed
PF08449seed
PF03151seed
PF10270seed
PF03169seed
PF11744seed
PF03219seed
PF13593seed
在程序中输入perl脚本,运行脚本“build_profile.pl”生成自定义配置文件HMM,并开始使用新的HMM(S)的管道。HMMER 首先用合理的E值识别靶基因组序列,这些命中片段平铺成有关于他们的基因组坐标的位置并合并成重叠的集群。最后,在每一个集群中的最好的一个命中被挑选生成候选命中列表。
1.1.2 基底修饰 在SPADA中,通过hmmsearch调用HMM文件来搜索针对翻译的基因组序列。该程序会输入一个或多个文件找到蛋白质序列数据库的靶位点。扫描的输出是被靶序列隔开的基因组。对于单外显子的基因,目标数据库的氨基酸序列延展将被探测出,大致对应于在原始基因组序列的外显子。对含有两个或多个外显子的基因,部分氨基酸序列命中对应于不同的外显子将由内含子分离(如果它们共享一个读框)或(如果在不同的读码框,则)分布在不同的靶序列。SPADA收集所有这些在翻译蛋白质序列全部和部分命中,恢复其原有的基因组坐标,过滤掉低命中候选(E值低于0.1)。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/swgc/smkx/358.html

好棒文