判别分析的r语言实现及应用(附件)【字数:6724】
摘 要摘 要 判别分析是可以对样本进行归类的一种统计方法,其在工作生活中的运用很多,这跟回归分析存在许多类似的地方。在确定了分类的前提下判别分析依照研究对象的各种特征值进行统计分析确定其归类,根据规定的准则建立函数,并用收集到的各种资料确定函数的系数,并计算出指标。本文开始我们对判别分析的研究背景和意义进行了简介,接着叙述了判别分析的基本概念及要求,接着阐述了判别分析的数据类型、方法如距离判别法、费希尔判别法和贝叶斯判别法等。最后通过实证对判别分析的R语言实现及应用进行了分析,证明了其在经济活动、天气分类、农业土地划分中有着广泛的应用。关键词 判别分析 ;距离判别法 ;费希尔判别 ;贝叶斯判别;R语言
目 录
第一章 绪论 8
1.1背景介绍 8
1.2 研究内容及意义 8
第二章 判别分析 10
2.1 判别分析的基本概念 10
2.2 判别分析的要求 11
第三章 判别分析的数据类型及处理方法 12
3.1 判别分析的数据类型 12
3.2 判别分析的处理方法 13
第四章 判别分析的R语言实现及应用实证 19
4.1 R语言简介 19
4.2 Fisher判别的R语言应用实证 19
总结与展望 22
致 谢 23
参考文献 24
第一章 绪论
1.1背景介绍
判别分析可以用来判定样品归类,这种统计方法的应用跟回归分析的广泛程度很相似。判别分析是依据研究对象的各种特征值进行统计分析并确定其归类,但前提是已经确定了分类,在此基础上根据提前规定好的准则建立函数,并用收集到的各种资料确定函数的系数,同时计算出指标。例如,在经济生活里,依照人均民众所得、人均工农业价值量、人均消费服务水准等各种指标来归类某个国家的经济水平;在市场调查时,依据过去调查获得的多项指标,判别下月或下年度产品的畅销程度,销售平平或即将滞销;在探测地质水平方面,通过地底标本的多重属性来分析底层的地质时间,根据岩石的组成来判定此地是有无铜矿或铁矿等;在对油田的考察开采过程中,依据探入地底油井收集得到的数据,分析在地底遇到的是油、 *好棒文|www.hbsrm.com +Q: ^351916072^
水、干层还是油水混合层等。因此在我们现实生活的方方面面都会经常碰到采用判别方法来分析解决的问题。
1.2 研究内容及意义
判别分析在定下了分类的情况下,通过观察待判对象的某种或多种特性来判断其归于哪一类型问题的统计分析,判别分析依据某种特定的准则,建立判别式,此判别式可以是一个或多个,然后根据已获得研究对象的观测数据确定判别函数中的待定系数,同时计算得到判别指标,这样就可以确定未判别样本的归类。常用的判别方法大致分为即Fisher判别、Bayes判别、距离判别及逐步判别,其在气候判定、工业区划、农业土地类型划分、患者确诊等等里应用非常广泛。在市场调查时,通常根据事前知道的因变量数据(例如品牌的大部分用户、少部分用户及非用户、个人房产或房屋租赁、某台听众和非某台听众)找出区分特性进行相应的处理。判别分析时,已知因变量数据为类别数据,处理组的类别数目根据类别的数量进行确定;而其中的自变量常为可度量数据。
我们可以依据判别分析建立能够最大程度区别因变量分类的判别式来测验自变量的组间差异明显与否,判定哪些自变量对组间差异有相对较大的贡献,估量分类的水平,依据自变量的值分析解决样本的归类问题。最近几年,判别分析的运用遍及了经济学、社会学及各类科学的日常生活、生产和科研中。判别分析通过已收集的确切的某个类型的多个样本的相关数据,分析得到某事物分类的规则,建立准则及相应的判别函数。这样当我们取得新的样品数据时,可以依据事先确定的准则及函数判别,即可对此样本数据的归类有所判定。
第二章 判别分析
2.1 判别分析的基本概念
判别分析是在十九世纪三十年代产生,是一种用来判定未知样本类别的统计方法,又可称为线性判别分析(Linear Discriminant Analysis),其根据取得的类别样本建立一定的模型。判别分析是一种根据特定的一个分组变量的数量样本及其对应的另外多种变量的相关数据,判定分组及另外多种变量数据的样本归类,对其进行判别分组的统计判别和分组技术。我们应该选择适当的分析方法在碰到包括属性被解释变量及多个度量解释变量的问题时,判别分析是在被解释变量为属性变量而解释变量是度量变量时所适宜的统计分析方法。
最近几年,判别分析的运用遍及了经济学、社会学及各类科学的日常生活、生产和科研中。判别分析的特点是通过已收集的确切的某个类型的多个样本的相关数据,分析判断得到某事物分类的规则,建立准则及相应的判别函数。这样当我们碰到新的样本数据时,依据事先确定的准则及函数判别,即可对此样本数据的归类有所判定。在我们实际生活中就会有许多类似的需要判别解决的的问题。例如,医院检查诊断时,依据某人各项体检指标(如血压、血脂、血糖、红细胞等)来判定此人有无明显病症;在对某个教师教学质量进行评估时,依据教学方法、课堂互动、课堂效果、课后反馈等指标来评价某个教师的课堂教学水平的优劣程度。在判别分析中我们需要对某些已知研究对象在一定方法中分成若干类的情形的问题进行处理是,判断未知探测数据的信息归于已知类别中的哪一类。我们需要在解决一个判别分析问题时建立相应的形容指标来衡量样本点和已确定类别贴切程度,就是判别函数,与此同时也需要为样本点所属类别的判定确定某项判别规则。判别规则是能够被统计的,通过统计的显著性检验可以判定样本点所属类别;同时规则也是可以确定的,我们可以只需要考虑判别函数值的大小来决定样本点归类。
2.2 判别分析的要求
1.判别分析最基本的要求:分组类型在两组以上;同时每一组案例的规模在第一阶段时必须至少在一个以上才能工作。为了能够计算解释变量的平均值和方差,使其能合理的应用在统计函数中,解释变量必定是能够测量的,这一模型跟其他多元线性统计差不多。
2.判别分析的假设:
1)每个判别变量(解释变量)与另外的判别变量不存在线性组合关系。此时,不能给出新的信息给另外的变量线性组合的判别变量,在此时的状况下不能评估判别函数是更关键的。除此以外,当某个判别变量跟其他的判别变量关联度很高时,或与其他判别变量的线性组合关联度很高,即使可以解出结果,参数估计的标准误差将会很大,这样会导致参数估计在统计上不显著。这就是通常提到的多重共线性问题。
2)各个组的变量协方差矩阵相等。判别分析最有效普遍的方式是运用线性判别方程式,其是判别变量的简单线性组合。假设在各组的协方差矩阵一样的前提下,能够用很方便的公式来建立判别函数并检验相应的显著性。
目 录
第一章 绪论 8
1.1背景介绍 8
1.2 研究内容及意义 8
第二章 判别分析 10
2.1 判别分析的基本概念 10
2.2 判别分析的要求 11
第三章 判别分析的数据类型及处理方法 12
3.1 判别分析的数据类型 12
3.2 判别分析的处理方法 13
第四章 判别分析的R语言实现及应用实证 19
4.1 R语言简介 19
4.2 Fisher判别的R语言应用实证 19
总结与展望 22
致 谢 23
参考文献 24
第一章 绪论
1.1背景介绍
判别分析可以用来判定样品归类,这种统计方法的应用跟回归分析的广泛程度很相似。判别分析是依据研究对象的各种特征值进行统计分析并确定其归类,但前提是已经确定了分类,在此基础上根据提前规定好的准则建立函数,并用收集到的各种资料确定函数的系数,同时计算出指标。例如,在经济生活里,依照人均民众所得、人均工农业价值量、人均消费服务水准等各种指标来归类某个国家的经济水平;在市场调查时,依据过去调查获得的多项指标,判别下月或下年度产品的畅销程度,销售平平或即将滞销;在探测地质水平方面,通过地底标本的多重属性来分析底层的地质时间,根据岩石的组成来判定此地是有无铜矿或铁矿等;在对油田的考察开采过程中,依据探入地底油井收集得到的数据,分析在地底遇到的是油、 *好棒文|www.hbsrm.com +Q: ^351916072^
水、干层还是油水混合层等。因此在我们现实生活的方方面面都会经常碰到采用判别方法来分析解决的问题。
1.2 研究内容及意义
判别分析在定下了分类的情况下,通过观察待判对象的某种或多种特性来判断其归于哪一类型问题的统计分析,判别分析依据某种特定的准则,建立判别式,此判别式可以是一个或多个,然后根据已获得研究对象的观测数据确定判别函数中的待定系数,同时计算得到判别指标,这样就可以确定未判别样本的归类。常用的判别方法大致分为即Fisher判别、Bayes判别、距离判别及逐步判别,其在气候判定、工业区划、农业土地类型划分、患者确诊等等里应用非常广泛。在市场调查时,通常根据事前知道的因变量数据(例如品牌的大部分用户、少部分用户及非用户、个人房产或房屋租赁、某台听众和非某台听众)找出区分特性进行相应的处理。判别分析时,已知因变量数据为类别数据,处理组的类别数目根据类别的数量进行确定;而其中的自变量常为可度量数据。
我们可以依据判别分析建立能够最大程度区别因变量分类的判别式来测验自变量的组间差异明显与否,判定哪些自变量对组间差异有相对较大的贡献,估量分类的水平,依据自变量的值分析解决样本的归类问题。最近几年,判别分析的运用遍及了经济学、社会学及各类科学的日常生活、生产和科研中。判别分析通过已收集的确切的某个类型的多个样本的相关数据,分析得到某事物分类的规则,建立准则及相应的判别函数。这样当我们取得新的样品数据时,可以依据事先确定的准则及函数判别,即可对此样本数据的归类有所判定。
第二章 判别分析
2.1 判别分析的基本概念
判别分析是在十九世纪三十年代产生,是一种用来判定未知样本类别的统计方法,又可称为线性判别分析(Linear Discriminant Analysis),其根据取得的类别样本建立一定的模型。判别分析是一种根据特定的一个分组变量的数量样本及其对应的另外多种变量的相关数据,判定分组及另外多种变量数据的样本归类,对其进行判别分组的统计判别和分组技术。我们应该选择适当的分析方法在碰到包括属性被解释变量及多个度量解释变量的问题时,判别分析是在被解释变量为属性变量而解释变量是度量变量时所适宜的统计分析方法。
最近几年,判别分析的运用遍及了经济学、社会学及各类科学的日常生活、生产和科研中。判别分析的特点是通过已收集的确切的某个类型的多个样本的相关数据,分析判断得到某事物分类的规则,建立准则及相应的判别函数。这样当我们碰到新的样本数据时,依据事先确定的准则及函数判别,即可对此样本数据的归类有所判定。在我们实际生活中就会有许多类似的需要判别解决的的问题。例如,医院检查诊断时,依据某人各项体检指标(如血压、血脂、血糖、红细胞等)来判定此人有无明显病症;在对某个教师教学质量进行评估时,依据教学方法、课堂互动、课堂效果、课后反馈等指标来评价某个教师的课堂教学水平的优劣程度。在判别分析中我们需要对某些已知研究对象在一定方法中分成若干类的情形的问题进行处理是,判断未知探测数据的信息归于已知类别中的哪一类。我们需要在解决一个判别分析问题时建立相应的形容指标来衡量样本点和已确定类别贴切程度,就是判别函数,与此同时也需要为样本点所属类别的判定确定某项判别规则。判别规则是能够被统计的,通过统计的显著性检验可以判定样本点所属类别;同时规则也是可以确定的,我们可以只需要考虑判别函数值的大小来决定样本点归类。
2.2 判别分析的要求
1.判别分析最基本的要求:分组类型在两组以上;同时每一组案例的规模在第一阶段时必须至少在一个以上才能工作。为了能够计算解释变量的平均值和方差,使其能合理的应用在统计函数中,解释变量必定是能够测量的,这一模型跟其他多元线性统计差不多。
2.判别分析的假设:
1)每个判别变量(解释变量)与另外的判别变量不存在线性组合关系。此时,不能给出新的信息给另外的变量线性组合的判别变量,在此时的状况下不能评估判别函数是更关键的。除此以外,当某个判别变量跟其他的判别变量关联度很高时,或与其他判别变量的线性组合关联度很高,即使可以解出结果,参数估计的标准误差将会很大,这样会导致参数估计在统计上不显著。这就是通常提到的多重共线性问题。
2)各个组的变量协方差矩阵相等。判别分析最有效普遍的方式是运用线性判别方程式,其是判别变量的简单线性组合。假设在各组的协方差矩阵一样的前提下,能够用很方便的公式来建立判别函数并检验相应的显著性。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/sxtj/234.html