贝叶斯网络工具箱的遗传位点分析研究
本文研究2016年全国研究生数学建模竞赛B题,应用贝叶斯网络工具箱和贝叶斯网络(Bayesian Network, 简记为BN)的相关理论和方法来解决该问题。该问题的目标是要在数量庞大位点与基因中找出遗传疾病的致病位点和关键基因。这类问题可以视为“特征选择 (Feature Selection) ”问题,在贝叶斯网络中,“特征选择”等价于目标节点的“马尔科夫边界发现”,因此使用贝叶斯网络中的局部结构学习和全局结构学习的算法——MMMB和TPDA, 可以有效地解决该问题。问题1中,由于每个位点的碱基编码属于分类数据,所以可以把它们转变成数值编码,然后将数据另存为“mat”文件,以便调用。问题2中,用“Causal Explorer”工具箱的MMMB算法对问题中的位点进行特征选择,分别用“朴素贝叶斯分类器”和“TPDA贝叶斯分类器”来检验该算法的预测正确率和信息量,结果并不理想。经过改进,预测正确率达到93.70%.问题3中,排除掉不含问题2所得的关键位点的289个基因,用“留一法”进行筛选,用两种分类器进行检验,得到两种方案 (1) 55, 62, 102号基因,最高预测正确率98.60%; (2) 55, 102号基因,最高预测正确率97.50%.问题4中,把10个性状用“MIToolbox”工具箱打包成一个变量,并去掉信息较少的取值,然后用问题2的方法进行处理,结果中最好的是超集的TPDA贝叶斯分类器的预测正确率为98.09%.解决过程及结果充分体现了该贝叶斯网络及其工具箱的高效与便利。关键词 遗传位点,贝叶斯网络,贝叶斯网络工具箱,特征选择,马尔科夫毯,朴素贝叶斯分类器,TPDA算法
目录
1 绪论 1
1.1 研究意义 1
1.2 研究背景 1
1.2.1 遗传位点 1
1.2.2 贝叶斯网络 2
1.3 研究问题 3
1.4 结构安排 4
2 贝叶斯网络工具箱 4
2.1 基础软件及其优势 4
2.2 贝叶斯网络工具箱及其优势 4
3 符号与假设以及问题分析 5
3.1 符号说明 5
3.2 问题假设 5
3.3 问题分析 5 *好棒文|www.hbsrm.com +Q: #351916072#
3.3.1 问题1分析 5
3.3.2 问题2分析 5
3.3.3 问题3分析 6
3.3.4 问题4分析 7
4 求解以及结果分析 7
4.1 问题1的求解 7
4.2 问题2的求解 7
4.2.1 特征选择 7
4.2.2 朴素贝叶斯分类器 7
4.2.3 马尔科夫毯 9
4.2.4 MMMB算法 10
4.2.5 TPDA算法 10
4.2.6 具体求解 10
4.3 问题3的求解 12
4.3.1 求解思路 12
4.3.2 具体求解 13
4.4 问题4的求解 16
结论与展望 18
致 谢 19
参 考 文 献 20
附录 22
问题1代码 22
问题2代码 23
问题3代码 25
问题4代码 28
1 绪论
本章介绍论文研究的背景与意义,主要描述遗传位点和贝叶斯网络的相关理论和知识;最后描述了论文所选取的问题以及结构安排。
1.1 研究意义
人的很多表现型性状的不同和对疾病与药物的易感性[1]等都有可能与某些位点或者含有多个位点的基因有关联。因此,通过样本的数据信息准确找出问题中遗传疾病的关键致病位点,以此来确定与性状或疾病有关的位点在染色体或基因中的具体位置,有助于人们探寻性状和一些疾病的遗传机理,有针对性地干预致病位点、预防某些遗传病,因而这有非常重要的指导意义。
1.2 研究背景
随着当今信息技术的发展,作为计算机科学的一个分支,人工智能也迅速发展,从诞生以来,理论和技术日益成熟,应用领域也不断扩大[2]。它由多个领域构成,比如机器学习,计算机视觉等等,而其中一个重要的领域就是对于不确定性问题的研究。在这个领域中,贝叶斯网络是主要被使用的模型之一。
1.2.1 遗传位点
腺嘌呤 (A) 、胸腺嘧啶 (T) 、胞嘧啶 (C) 、胸腺嘧啶 (G) 四种碱基的脱氧核苷酸链接起来,组成了DNA的双螺旋长链分子,它携带着人的遗传密码,人的每条染色体携带一个DNA分子。在上述的双螺旋长链分子中,大约有30亿个碱基对;基因是DNA里具有遗传效应的一些片段。在DNA的这些碱基对中,有些特定位置的单个核苷酸常常变异,从而使DNA呈现多态性,这种多态性称为位点,即上文中提到的“遗传位点 (Genetic Locus) ”,也叫做“基因位点”。每个位点是用两个碱基来进行编码的,并且有三种不同编码方式,比如某样本的编码是用T和C的碱基组合,则有三种不同的编码方式,即TT, TC和CC.
染色体、基因和位点三者的结构关系见图1:
图1 染色体、基因和位点三者的结构关系
1.2.2 贝叶斯网络
由Pearl在1988年提出的贝叶斯网络(Bayesian Network, 简记为BN)是不确定知识表达和推理的理论模型,又叫做信念网络[3],是概率论和图论相结合的图形模型,它从定性和定量两个方面刻画了变量间的独立性关系,并且也为描述多个变量相互之间复杂的关系提供了统一框架,具有清晰直观、紧凑有效等特点[4]。
具体来说,一个贝叶斯网络是由代表变量的节点以及连接这些节点的有向边构成的一个有向无环图(Directed Acyclic Graph, 简记为DAG)。其中,一个节点表示一个随机变量,节点之间的相互关系用它们之间的有向边来表示(方向从父节点指向它的子节点),关系强度以条件概率的大小来表示,如果一个节点没有父节点,那么就用先验概率来表示它是信息。节点所代表的变量可以运用于很多问题,比如:测试数据等。贝叶斯网络在描述和分析具有不确定性以及概率性的问题上较为出色,可以从不确定的知识或信息中做出推理[5]。
例如,图2就是一个贝叶斯网络:
图2 贝叶斯网络
贝叶斯网络能够在利用先验信息同时,和样本知识进行有机结合,促进了先验知识和数据的集成[67] 。因为在大型而复杂的系统中,贝叶斯网络具有简洁而高效的表示能力,使它成为许多领域的研究热点,比如医疗诊断、工业、金融分析、自动目标识别、军事等各个领域。
贝叶斯网络理论有如下的研究任务:结构学习、参数学习、推理、应用,而结构学习是首要任务,是重中之重。
根据贝叶斯网络的定义,贝叶斯网络的结构是一个有向无环图。对于一个共有个节点的有向无环图,以来表示所有由个节点组成的有向无环图个数。Robinson给出了的计算公式[8]:
目录
1 绪论 1
1.1 研究意义 1
1.2 研究背景 1
1.2.1 遗传位点 1
1.2.2 贝叶斯网络 2
1.3 研究问题 3
1.4 结构安排 4
2 贝叶斯网络工具箱 4
2.1 基础软件及其优势 4
2.2 贝叶斯网络工具箱及其优势 4
3 符号与假设以及问题分析 5
3.1 符号说明 5
3.2 问题假设 5
3.3 问题分析 5 *好棒文|www.hbsrm.com +Q: #351916072#
3.3.1 问题1分析 5
3.3.2 问题2分析 5
3.3.3 问题3分析 6
3.3.4 问题4分析 7
4 求解以及结果分析 7
4.1 问题1的求解 7
4.2 问题2的求解 7
4.2.1 特征选择 7
4.2.2 朴素贝叶斯分类器 7
4.2.3 马尔科夫毯 9
4.2.4 MMMB算法 10
4.2.5 TPDA算法 10
4.2.6 具体求解 10
4.3 问题3的求解 12
4.3.1 求解思路 12
4.3.2 具体求解 13
4.4 问题4的求解 16
结论与展望 18
致 谢 19
参 考 文 献 20
附录 22
问题1代码 22
问题2代码 23
问题3代码 25
问题4代码 28
1 绪论
本章介绍论文研究的背景与意义,主要描述遗传位点和贝叶斯网络的相关理论和知识;最后描述了论文所选取的问题以及结构安排。
1.1 研究意义
人的很多表现型性状的不同和对疾病与药物的易感性[1]等都有可能与某些位点或者含有多个位点的基因有关联。因此,通过样本的数据信息准确找出问题中遗传疾病的关键致病位点,以此来确定与性状或疾病有关的位点在染色体或基因中的具体位置,有助于人们探寻性状和一些疾病的遗传机理,有针对性地干预致病位点、预防某些遗传病,因而这有非常重要的指导意义。
1.2 研究背景
随着当今信息技术的发展,作为计算机科学的一个分支,人工智能也迅速发展,从诞生以来,理论和技术日益成熟,应用领域也不断扩大[2]。它由多个领域构成,比如机器学习,计算机视觉等等,而其中一个重要的领域就是对于不确定性问题的研究。在这个领域中,贝叶斯网络是主要被使用的模型之一。
1.2.1 遗传位点
腺嘌呤 (A) 、胸腺嘧啶 (T) 、胞嘧啶 (C) 、胸腺嘧啶 (G) 四种碱基的脱氧核苷酸链接起来,组成了DNA的双螺旋长链分子,它携带着人的遗传密码,人的每条染色体携带一个DNA分子。在上述的双螺旋长链分子中,大约有30亿个碱基对;基因是DNA里具有遗传效应的一些片段。在DNA的这些碱基对中,有些特定位置的单个核苷酸常常变异,从而使DNA呈现多态性,这种多态性称为位点,即上文中提到的“遗传位点 (Genetic Locus) ”,也叫做“基因位点”。每个位点是用两个碱基来进行编码的,并且有三种不同编码方式,比如某样本的编码是用T和C的碱基组合,则有三种不同的编码方式,即TT, TC和CC.
染色体、基因和位点三者的结构关系见图1:
图1 染色体、基因和位点三者的结构关系
1.2.2 贝叶斯网络
由Pearl在1988年提出的贝叶斯网络(Bayesian Network, 简记为BN)是不确定知识表达和推理的理论模型,又叫做信念网络[3],是概率论和图论相结合的图形模型,它从定性和定量两个方面刻画了变量间的独立性关系,并且也为描述多个变量相互之间复杂的关系提供了统一框架,具有清晰直观、紧凑有效等特点[4]。
具体来说,一个贝叶斯网络是由代表变量的节点以及连接这些节点的有向边构成的一个有向无环图(Directed Acyclic Graph, 简记为DAG)。其中,一个节点表示一个随机变量,节点之间的相互关系用它们之间的有向边来表示(方向从父节点指向它的子节点),关系强度以条件概率的大小来表示,如果一个节点没有父节点,那么就用先验概率来表示它是信息。节点所代表的变量可以运用于很多问题,比如:测试数据等。贝叶斯网络在描述和分析具有不确定性以及概率性的问题上较为出色,可以从不确定的知识或信息中做出推理[5]。
例如,图2就是一个贝叶斯网络:
图2 贝叶斯网络
贝叶斯网络能够在利用先验信息同时,和样本知识进行有机结合,促进了先验知识和数据的集成[67] 。因为在大型而复杂的系统中,贝叶斯网络具有简洁而高效的表示能力,使它成为许多领域的研究热点,比如医疗诊断、工业、金融分析、自动目标识别、军事等各个领域。
贝叶斯网络理论有如下的研究任务:结构学习、参数学习、推理、应用,而结构学习是首要任务,是重中之重。
根据贝叶斯网络的定义,贝叶斯网络的结构是一个有向无环图。对于一个共有个节点的有向无环图,以来表示所有由个节点组成的有向无环图个数。Robinson给出了的计算公式[8]:
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1226.html