基因组注释管理系统(源码)

摘要:随着测序技术进步和测序成本下降,越来越多的基因组项目得以启动并相继完成,生物领域科研人员对基因组注释信息自动化管理及可视化展示的需求越来越迫切。本文针对基因组注释信息维护和使用的需要,设计并开发了基因组注释管理系统。该系统采用当前流行的MVC设计模式,使用Django技术,利用Python、JavaScript、Html5以及CSS3语言进行开发。它可以利用用户上传的基因组序列和gff3注释文件自动化生成CDS序列、蛋白质序列以及功能注释信息等,并支持Blast序列相似性搜索、基因ID和注释功能关键词搜索。经过测试,该系统性能稳定,能满足用户的基本需求。
目录
摘要 1
关键词 1
ABSTRACT 1
KEY WORDS 1
1 绪论 1
1.1 研究背景及意义 1
1.2 国内外研究现状 1
1.3 研究目的和内容 2
2 基因组注释相关概念及处理技术 2
2.1 基因组 2
2.2 基因组注释 2
2.3 相关数据格式 2
2.3.1 fasta文件格式 2
2.3.2 gff3文件格式 3
2.4 相关数据库 3
2.5 功能注释工具Blast 3
3 开发环境和应用技术 4
3.1 开发环境搭建 4
3.2 Python语言概述 4
3.2.1 Python语言简介 4
3.2.2 Python语言特性 4
3.3 Django概述 5
3.3.1 Django简介 5
3.3.2 Django特性 5
3.3.3 MVC开发模式 6
3.4 MySQL数据库概述 7
3.4.1 MySQL数据库简介 7
3.4.2 MySQL与Django的连接访问 7
4 基因组注释系统需求分析与设计 8
4.1 系统需求分析 8
4.1.1 系统功能需求分析 8
4.1.2 系统界面需求分析 8

 *好棒文|www.hbsrm.com +Q:  3_5_1_9_1_6_0_7_2 
4.2 系统总体设计 9
4.2.1 系统总体架构 9
4.2.2 数据库设计 12
5 基因组注释系统功能实现 13
5.1 用户登录模块 13
5.2 分类检索模块 13
5.3 增加数据模块 14
5.4 删除数据模块 14
5.5 更改数据模块 14
5.6 Blast比对模块 14
5.7 上传文件模块 15
5.8 实现总结与界面展示 15
6 测试概述 17
6.1 软件测试的目的 17
6.2 测试过程 17
6.2.1 系统整体运行测试 17
6.2.2 上传文件功能测试 17
6.2.3 Blast比对功能测试 17
6.2.4 分类检索功能测试 17
6.3 测试结论 18
7 总结与展望 18
致谢 18
参考文献 18
基因组注释管理系统
引言
绪论
研究背景及意义
随着二十世纪以来自然科学的迅猛发展,生物科学和计算机信息技术成为两个热点领域。生物信息学是利用计算机科学的技术手段来研究生物学数据的一门学科[1]。由于测序技术的不断进步与测序成本的不断下降,越来越多的生物被测序。研究人员每测完一个物种的基因组一般都会建立一个网页数据库,全球各地生物信息数据库的数量不断增加,基于数据库的大量研究工作将有所突破[2]。数据量的暴增使得研究人员用手工管理基因组数据变得非常困难。此外,最初注释的基因信息可能存在错误或遗漏的问题,随着实验的推进,研究人员对于基因的认识越来越完善,因此需要不断丰富基因集。目前,生物学家管理基因组数据通常用Linux命令行和编写程序来完成,但大部分的生物学家对编程不熟悉,普通的文本编辑搜索使用不便,科学家对基因组数据的管理难以进行。因此,有必要设计开发自动化的注释管理工具。
国内外研究现状
研究目的和内容
本系统利用基因组序列fasta格式文件及基因组注释gff3格式文件的基本信息进行自动化基因序列的提取、翻译和功能注释。用户可以在线实现对基因的增删改、序列比对、注释信息搜索等功能。主要内容有以下几方面:
自动化构建
该系统使得研究人员只需要上传一个物种基因组序列文件和基因组注释文件即可自动化生成一系列衍生序列(如CDS序列、蛋白质序列),研究人员不需要通过手工方式来得到所需的生物数据。
通用型数据库
不同物种的gff3格式基因组注释文件可能存在差异,该系统可以针对大部分物种的注释文件来构建通用型数据库系统。
易于管理的可视化界面
基因组数据种类多样且数据量非常庞大,普通文本编辑搜索使用不便。该系统的界面基于用户体验方便进行管理操作。
高效率的在线比对
序列比对是生物学家常用的一种研究方法,通过与已知功能的基因序列进行比对,找出序列相似的基因,推测未知基因的功能。该系统支持最为常用的Blast比对进行序列相似性搜索。
基因组注释相关概念及处理技术
基因组
在生物学中,一个生物体的基因组是指包含在该生物体内的DNA(部分病毒是RNA)中的全部遗传信息。例如人类的基因组通常指的是染色体DNA,尽管其他细胞器官里也包含基因信息,但是这些并不能够算作基因组的一部分。
基因组注释
在基因组学中,对基因和其他生物特征的标注称为基因组注释。基因组注释是利用已有的生物信息学工具与方法,通过将未知物种核酸或蛋白质序列与数据库已有内容进行序列比对,来推测未知基因的功能。狭义层面,注释是指把基因在基因组上的位置标记出来,再标记出这个基因所具有的功能。广义上来讲,注释还包括将基因组上别的功能原件进行标记(包括miRNA、IncRNA、重复序列、rRNA等)。起初,有科学家通过实验,证明某个蛋白质序列具有某种功能,之后他人便可以利用这个已经被证实功能的蛋白质序列,将未知功能的基因序列与之进行比对,如果相似性达到一定阈值,就判定这个未知序列也具有相似功能。
相关数据格式
fasta文件格式
在生物信息学中,fasta文件格式是一种用来记录核酸或蛋白质序列的文本格式,该格式已成为生物信息领域的一项标准。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2204.html

好棒文