最小二乘法与偏最小二乘法比较
最小二乘法作为最重要的统计方法之一,得到了医学、信息、经济学、生物学等各学科的广泛应用。方差分析、线性模型理论和相关回归分析等数理统计学的几大分支都是以最小二乘法为理论基础。最小二乘法是参数回归的最基本得方法。但是随着自变量的增加,最小二乘变得不再适用,尤其是当自变量存在相关性的时候,最小二乘存在严重的过拟合现象。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。本文通过两种方法对过饱和模型进行分析比较。
目录
摘要1
关键词1
Abstract1
Key words1
引言(或绪论)1
1 最小二乘法及偏最小二乘法3
1.1 最小二乘法公式及流程3
1.1.1 最小二乘法公式3
1.1.2 最小二乘法流程5
1.2 偏最小二乘法公式及流程5
1.2.1 偏最小二乘法公式5
1.2.2 偏最小二乘法流程7
2 结果与分析8
2.1 最小二乘法结果与分析8
2.1.1 最小二乘法结果8
2.1.2最小二乘法分析9
2.2 偏最小二乘法结果与分析9
2.2.1 偏最小二乘法结果9
2.2.2 偏最小二乘法分析10
3 讨论 11
致谢11
参考文献11
附录A 最小二乘法matlab程序11
附录B 偏最小二乘法matlab程序11
附录C 最小二乘法矩阵A12
附录D 偏最小二乘法矩阵B、F15
最小二乘法与偏最小二乘法比较
引言
引言
在早期数理统计方法的发展中,天文学和测地学起了很大的作用。丹麦的统计史家哈尔德曾经指出天文学在数理统计学的发展中所起到的作用。“天文学从古代一直到18世纪都是应用数学中最发达的领域。观测和数学天文学提出了最初的建立数学模型和数据拟合的例子,在这种意义下,天文学家就相当于最初的数理统计学家。天文学的问题逐渐引导到以最小二乘法为顶峰的算术平均,和参数模型中的多种估计方法。”
180 *好棒文|www.hbsrm.com +Q: ^351916072*
5年法国科学家勒让德在发表的论著《计算彗星轨道的新方法》的附录中描述了最小二乘法的思想、具体做法及其优点。勒让德认为:“赋予误差的平方和为很小,就说明在这些误差之间建立了一种均衡性,它避免了极端情况所造成的过度影响。这很好的适用于展现最为接近于真实情况的系统状态。”
勒让德运用了微积分工具来确定误差平方的最小值。即在变动时为了确保平方和有最小值,则它对的偏导数必须为0。由此可以得到线性方程组,如下:
.
勒让德提出下面三条最小二乘法的优点:
(1)n=1,时,令,则误差的平方和为,对它求关于x的偏导数,则使此和极小的方程是,故解为,它是m个观测值的算术平均值。
(2)如果观测值全部严格符合某一方程组的要求,则此解必是最小二乘法的解。
(3)如果舍弃或增加观测值,则修改所得方程组即可。
高斯发表于1809年他的著作《天体运动论》中使用了最小二乘法的方法。高斯与勒让德相比,高斯使最小二乘法被推进的更远,他由误差函数推导出这个方法并且阐述了最小二乘法的理论依据。在推证的过程中,高斯有两个创新之处[1]:一是,他并没有参照其他前辈那样,使用贝叶斯式的推理方式,而是直接构造观测值的似然函数,也就是导出误差函数使其达极大估计量;二是高斯思考这个问题采用了逆向思维,也就是说先认可算术平均值是需要求的估计,即“假如在相等的管理和相同的环境下对任意一个量通过多次直接观测来确定,则观测来的这些观测值的算术平均值是最希望选择的值” [1]。这是高斯大胆采用了人们千百年来的实际经验,实在是高斯的独创性思维。
勒让德和高斯是从不同的角度入手发现的最小二乘法:一个是解线性方程度,一个是寻找误差函数;一个运用的是整体思维,考虑方程组的均衡性,一个运用的是逆向思维,首先接受经验事实;一个是纯代数方法,一个致力于应用。
求估计的另一种方法是极大似然估计方法。设总体X是离散型随机变量,它的概率函数为,其中是未知参数。设为来自总体X的样本。的联合概率函数是,这里,是常量,是变量。如果我们已知得到的样本取的值是,则事件产生的概率就是。这个概率随着的值的变化而变化。那么,从直观上来看,如果样本值出现了,它们出现的概率相对来说应该比较大,应该使取得比较大的值。也就是说,应该使样本值的具有最大的出现概率。把上式看成是的函数,用来表示,则:,称为似然函数。所谓的极大似然估计法,也就是在参数的可能的取值范围内,选取使达到最大的参数值,作为参数的估计值。即取,使。因此,求解总体参数的极大似然估计值的问题可以看作是求解似然函数的最大值问题。
求解极大似然函数估计值的步骤为以下几步:(1)由总体分布导出样本的联合密度(或联合概率函数);(2)把样本联合密度(或联合概率函数)中自变量看作是已知的常数,而把参数看作是自变量,从而得到似然函数;(3)求似然函数的最大值点,经常转化为求对数似然函数的最大值点;(4)在最大值点的表达式中,用样本值代入就可以得到参数的极大似然估计值。
偏最小二乘法的思想最早是20世纪60年代末被欧洲经济计量学家提出,但是到了20世纪70年代,瑞典的经济计量学家Herman Wold才提出了非线性迭代偏最小二乘法(NIPALS),到这时才算是比较系统的解决了偏最小二乘法的算法问题。但是,偏最小二乘回归的统计思想和原理并没有被真正的解决好,在其应用领域也没有获得比较大的进展,所以并没有吸引到统计学界和应用领域研究人员的足够大的重视。一直到了上个世纪80年代,首先把偏最小二乘回归成功的运用于计量化学的是计量化学的研究者,在这之后的时间里,工业设计的工作者也同样运用此方法获得巨大成功,直到这时才真正引起了各个方面的大大关注。从此,偏最小二乘回归的算法研究和统计理论得到极大的发展,也迅速的扩展到其他领域也应用了此方法,尤其是近几年来,它被不断的运用于药物研究等科学领域。
在上世纪80年代末至90年代初,非线性迭代偏最小二乘法形成了多种算法变种,例如最早由Herman Wold提出的的非线性迭代偏最小二乘法就已经发展处迭代法、奇异值分解法、特征根法等各种算法,它们极大的丰富了偏最小二乘法。
目录
摘要1
关键词1
Abstract1
Key words1
引言(或绪论)1
1 最小二乘法及偏最小二乘法3
1.1 最小二乘法公式及流程3
1.1.1 最小二乘法公式3
1.1.2 最小二乘法流程5
1.2 偏最小二乘法公式及流程5
1.2.1 偏最小二乘法公式5
1.2.2 偏最小二乘法流程7
2 结果与分析8
2.1 最小二乘法结果与分析8
2.1.1 最小二乘法结果8
2.1.2最小二乘法分析9
2.2 偏最小二乘法结果与分析9
2.2.1 偏最小二乘法结果9
2.2.2 偏最小二乘法分析10
3 讨论 11
致谢11
参考文献11
附录A 最小二乘法matlab程序11
附录B 偏最小二乘法matlab程序11
附录C 最小二乘法矩阵A12
附录D 偏最小二乘法矩阵B、F15
最小二乘法与偏最小二乘法比较
引言
引言
在早期数理统计方法的发展中,天文学和测地学起了很大的作用。丹麦的统计史家哈尔德曾经指出天文学在数理统计学的发展中所起到的作用。“天文学从古代一直到18世纪都是应用数学中最发达的领域。观测和数学天文学提出了最初的建立数学模型和数据拟合的例子,在这种意义下,天文学家就相当于最初的数理统计学家。天文学的问题逐渐引导到以最小二乘法为顶峰的算术平均,和参数模型中的多种估计方法。”
180 *好棒文|www.hbsrm.com +Q: ^351916072*
5年法国科学家勒让德在发表的论著《计算彗星轨道的新方法》的附录中描述了最小二乘法的思想、具体做法及其优点。勒让德认为:“赋予误差的平方和为很小,就说明在这些误差之间建立了一种均衡性,它避免了极端情况所造成的过度影响。这很好的适用于展现最为接近于真实情况的系统状态。”
勒让德运用了微积分工具来确定误差平方的最小值。即在变动时为了确保平方和有最小值,则它对的偏导数必须为0。由此可以得到线性方程组,如下:
.
勒让德提出下面三条最小二乘法的优点:
(1)n=1,时,令,则误差的平方和为,对它求关于x的偏导数,则使此和极小的方程是,故解为,它是m个观测值的算术平均值。
(2)如果观测值全部严格符合某一方程组的要求,则此解必是最小二乘法的解。
(3)如果舍弃或增加观测值,则修改所得方程组即可。
高斯发表于1809年他的著作《天体运动论》中使用了最小二乘法的方法。高斯与勒让德相比,高斯使最小二乘法被推进的更远,他由误差函数推导出这个方法并且阐述了最小二乘法的理论依据。在推证的过程中,高斯有两个创新之处[1]:一是,他并没有参照其他前辈那样,使用贝叶斯式的推理方式,而是直接构造观测值的似然函数,也就是导出误差函数使其达极大估计量;二是高斯思考这个问题采用了逆向思维,也就是说先认可算术平均值是需要求的估计,即“假如在相等的管理和相同的环境下对任意一个量通过多次直接观测来确定,则观测来的这些观测值的算术平均值是最希望选择的值” [1]。这是高斯大胆采用了人们千百年来的实际经验,实在是高斯的独创性思维。
勒让德和高斯是从不同的角度入手发现的最小二乘法:一个是解线性方程度,一个是寻找误差函数;一个运用的是整体思维,考虑方程组的均衡性,一个运用的是逆向思维,首先接受经验事实;一个是纯代数方法,一个致力于应用。
求估计的另一种方法是极大似然估计方法。设总体X是离散型随机变量,它的概率函数为,其中是未知参数。设为来自总体X的样本。的联合概率函数是,这里,是常量,是变量。如果我们已知得到的样本取的值是,则事件产生的概率就是。这个概率随着的值的变化而变化。那么,从直观上来看,如果样本值出现了,它们出现的概率相对来说应该比较大,应该使取得比较大的值。也就是说,应该使样本值的具有最大的出现概率。把上式看成是的函数,用来表示,则:,称为似然函数。所谓的极大似然估计法,也就是在参数的可能的取值范围内,选取使达到最大的参数值,作为参数的估计值。即取,使。因此,求解总体参数的极大似然估计值的问题可以看作是求解似然函数的最大值问题。
求解极大似然函数估计值的步骤为以下几步:(1)由总体分布导出样本的联合密度(或联合概率函数);(2)把样本联合密度(或联合概率函数)中自变量看作是已知的常数,而把参数看作是自变量,从而得到似然函数;(3)求似然函数的最大值点,经常转化为求对数似然函数的最大值点;(4)在最大值点的表达式中,用样本值代入就可以得到参数的极大似然估计值。
偏最小二乘法的思想最早是20世纪60年代末被欧洲经济计量学家提出,但是到了20世纪70年代,瑞典的经济计量学家Herman Wold才提出了非线性迭代偏最小二乘法(NIPALS),到这时才算是比较系统的解决了偏最小二乘法的算法问题。但是,偏最小二乘回归的统计思想和原理并没有被真正的解决好,在其应用领域也没有获得比较大的进展,所以并没有吸引到统计学界和应用领域研究人员的足够大的重视。一直到了上个世纪80年代,首先把偏最小二乘回归成功的运用于计量化学的是计量化学的研究者,在这之后的时间里,工业设计的工作者也同样运用此方法获得巨大成功,直到这时才真正引起了各个方面的大大关注。从此,偏最小二乘回归的算法研究和统计理论得到极大的发展,也迅速的扩展到其他领域也应用了此方法,尤其是近几年来,它被不断的运用于药物研究等科学领域。
在上世纪80年代末至90年代初,非线性迭代偏最小二乘法形成了多种算法变种,例如最早由Herman Wold提出的的非线性迭代偏最小二乘法就已经发展处迭代法、奇异值分解法、特征根法等各种算法,它们极大的丰富了偏最小二乘法。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1832.html