多元线性回归分析的股价预测研究(源码)
近些年,股票成为了中国老百姓中的热门话题,同样也是经济领域的热门问题,股票的一涨一碟都牵动着中国股民的心。尤其是今年的股市一而再再而三的发生动荡,频频登上新闻的头版头条,股市成为近些年最热门的话题之一。本文将于基本的多元回归基础上,使用贝叶斯套索回归模型,以及因子分析回归模型分别对一只股票进行分析,本文将以IBM公司的股票的历史数据为例,以Topen(现日开盘价),Thigh(现日最高价),Tlow(现日最低价),Tclose(现日收盘价),Tvolume(现日成交量),Fopen(次日开盘价),为自变量,以Fclose(次日收盘价)为因变量。对Fclose进行预测,看两种模型对股价的预测效果如何,较普通多元线性回归模型的优势。关键字多元统计分析;股价预测;贝叶斯回归;因子分析回归;Based on multivariate linear regression analysis on the share price prediction researchStudent majoring in the information and computing science Bao Shu Nan Tutor Zhang JinAbstractIn recent years, In recent years, the stock has become a hot topic in the Chinese people, the same is the hot areas of the economy, the stock of a rise and fall are affecting the hearts of Chinese investors. In particular, this years stock market turmoil again and again, frequently boarded the front page of the news headlines, the stock market has become one of the most popular topics in recent years. Based on the basic multiple regression, this paper will analyze t *好棒文|www.hbsrm.com +Q: @351916072@
he stock by using the Bayesian lasso regression model and the Factor analysis regression model respectively. This paper will take the historical data of IBM stock as an example. Regarding the Topen(today’s opening price),the Thigh(the highest price today), Tlow(the lowest price today),Tclose(today’s closing price), Tvolume(Today’s volume) and the Fopen(next day opening price) as the Independent variable, at the same time, I will regard the Fclose(next day closing price) as the Dependent variable .I would like to predict the Fclose, to see how the two models have a better effect on the stock price than the ordinary multiple linear regression model.key words : Multivariate statistical analysis; stock price forecasting; Bayesian regression; Factor analysis绪论1.1选题意义在股票市场中,时时刻刻都会产生大量的交易数据,上市公司也会定期发布财务数据,如何利用这些数据,用来减少投资风险。使得投资人得到值得欣喜的报酬,这个问题研究起来就很有意义了。另外,公司的证券信息也是十分重要的,能够反映一个公司是否值得投资人去投资,一定程度上能够帮助投资者判断股价的变化,因此利用这些信息来判断股票的投资价值是十分重要的。股票是证券市场上的主要投资工具,是证券市场里投资者的重点关注对象,股价也就成了投资的最主要依据。对股价的合理评估,对于热衷于股票投资的投资者来说,是一项需要学习的技术,理性的股票投资决策方法就是帮助投资者对股票票价进行合理评估。本文将从探索股票价格的线性关系出发,以网上下载的IBM公司股票历史数据为基础,将open ,high ,low ,close ,volume五项数据进行整理,重新划分为Topen(今日开盘价),Thigh(今日最高价),Tlow(今日最低价),Tclose(今日收盘价),Tvolume(今日成交额),Fopen(次日开盘价)为自变量,以Fclose(次日收盘价)为因变量,建立一个多元线性回归模型。但是在对模型做初步分析时,发现普通的回归存在着缺陷,预测效果并不是十分出色,继而我们决定一步一步改善这种普通的回归方法,希望得到一个较好的估计结果,即使用贝叶斯套索回归方法以及因子分析回归方法,尝试使用者两种方法进一步来对股价进行预测分析,希望能有较好的指导意义。1.2多元统计分析简介多元统计始于1928年,Wishart在其论文《多元正态总体样本协方差的精确分布》中,首次提到了这个概念,之后Fisher,Hotelling接着他的工作继续完善下去,使得这个概念的理论得到快速发展,并且能够应用于许多的方面,给人类的生活带来了极大的改善。多元统计的再次飞速发展始于20世纪中期,由于电子计算机的出现,多元统计学突破了其巨大计算量的局限性,开始在社会学,气象学,经济学等等各个方面逐渐火热起来,成为了其中不可或缺的一部分[1][2]。在这些方面中,我们常常需要观测不止一个指标来分析问题。以一个区域的经济发展为例,除了GDP以外,人均收入,税收等等也是十分重要的指标。而对于一个公司,不仅仅要看其每年的盈利,劳动生产率等等也十分重要。我们在统计学中称这些指标为变量,但是由于指标的不确定性,故这些指标也称随机变[3]。 那么,问题来了,我们应该采取怎样的方式来对多个随机变量来进行分析呢?传统的方法是把各个变量给孤立开,然后一个个的进行分析,然而这种方法极其死板,因为不对指标之间进行相关性分析,故会丢失十分多的信息,导致最后不能取得好的结果,现在的主流方法则是对多个随机变量同时研究,用多元统计的方法研究各个变量本身以及相互之间的联系。现代这种主流的多变量共同处理的方法,可以将不同变量对于一个确定的变量或者其余变量的作用能够确定的表示出来,能够确切的描述之间的关系;另外多元统计中,消除变量之间的共线性,消除重叠的信息。同时降维的思路也是极其重要的,在尽可能保证原始信息量的同时进行降维,会收到更加好的效果。所以,在股价估计得过程当中,要运用大量的多元统计学的知识,对于大量数据进行分析,探索市场内部的规律,从而能够得到一个好的估计效果,得到让股民满意的投资成果[4]。二、多元线性回归分析2.1多元线性回归简介回归分析是建立在大量的观察数据之上的,用来研究事物变量之间关系的方法。探寻因变量和自变量的相互依赖的关系,故称作多元回归问题。模型建立以及分析的过程如下根据研究的目的,设置目标变量。收集并且整理需要的数据确定相应的数字回归模型参数估计模型检验以及修改2.2 多元线性回归模型的一般形式设随机变量y与其余随机变量的线性回归模型[5]为 (2.1)其中,未知参数,为回归常数,为回归系数。Y称为被因变量,而是p个可测且可操作的变量,我们称之为自变量。对一个实际问题,如果我们获得的n组观测数据(i=1,2,...n)则线性回归模型可表示为 (2.2)其中, (2.3)在多元回归中我们有些基本假定E()=0,i=1,2,...,nE()=0,(i≠j)Var(),i=1,2,...,n为非随机变量观测值的数量要大于待估计参数的数量变量之间不存在严格的线性关系随机误差项服从正态分布且相互独立最后我们根据最小二乘法,即满足残差平方和最小的那一B,可以得到 (2.3)三、贝叶斯套索回归模型3.1套索模型简介套索回归模型[6]在21世纪以来在回归研究中最常被引用的模型,它的实质也是求满足残差平方和最小的那一组数,但是在β的取值上进行了压缩估计,即将所有的的绝对值压缩在一个数t的范围内,即也就是最终表达式为 (3.1)从而得到一组更为有效的β值。3.2贝叶斯套索回归模型简介 贝叶斯套索法在经典回归模型的基础上引入了贝叶斯统计学先验分布的思想,“Bayesian lasso”涉及到对回归系数β在线性回归模型 / (3.2)中的p值的使用双指数的先验收缩[7],在这里y是一个n维向量的观测值,x是一个形式为n*p的矩阵的预测变量,在Bayesian lasso的模型中,特别是当我们的预测变量x太大的时候,先验分布的收缩扮演了一个十分重要的角色。 在这个模型中,我们假设向量y以及矩阵x的列是已经确定的了,所以在模型中的截距项已经不被包含在内了,因为现在我们假设模型中的/是已知的量,所以无论如何,我们现在的工作量就得以大大减轻了。对于一个被给定的模型和先验变量,评估一个不确定模型的关键就是对其能力的评估 / (3.3)其中/是β的标准化评估[8]。四、因子分析模型4.1主成分分析简介主成分分析[9]就是运用降维思路来分析的一种典型方法,把高维转换为低维。把多项指标转化为能承载更多信息的主成分指标,它将一些相关的变量转换为不相关的新变量,根据新变量的方差大小,对新变量依次排序,在保证总方差不变的情况下,将方差最大的新变量称为第一主成分,同理,方差第二大的称为第二主成分且与第一变量不相关。依次类推,I个变量就有I个主成分。假设有n个样本,每个样本测得的p项指标 之间往往具有相关关系。得到原始数据资料阵为 (4.1)其中用矩阵X中的P个列向量作线性组合,得到一组新的综合指标向量,用Y来表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式 (4.2)可以简写为由于经过不同的线性变换后得到的新的综合变量Y并不是完全相同的,他们还是有很大的差距。因此,为了能够得到令人满意的结果,我们希望在中得到的新变量的方差能够尽量大且能够保证各之间相互独立,此外,又因为 而对于任意常数c,有 因此若人主观上对不给予一个必要的限制时,那么Var(Yi)则会随意膨胀增加,这样的话,我们再去研究这个问题就会显得多余且没必要。综上所述,我们在做分析的时候理应将线性变换局限于下述标准之中。Yi与Yj相互无关 (i≠j,i,j=1,2,...,p)。是的一切满足标准(1)中的方差最大综合变量;是与不相关的所以线性组合中方差最大者;......是与都不相关的的所有线性组合中方差最大者。建立于上述标准而确立的综合变量分别称为原始变量的第一第二...第p个主成分。其中,新得到的综合变量的方差应该依次递减,而在我们实际的研究当中,一般挑选前几个方差最大的主成分,一般而言,只要主成分的方差之和占总方差的85%就可以很好的达到简化变量,而又保存大部分信息的效果了,可以便于我们进行进一步的分析。4.2因子分析模型简介因子分析法[10] 的基本思想是从变量内部的相关关系出发,将一些关系十分复杂的变量组整合成少数几个综合因子的一种多元统计方法。它是根据相关性进行分类,将相关性较高的一些变量分在一类,其他的分到其他类,这些把很多变量包含的类,也就称作为公共因子,且是不可测的,可以由人主观命名,另外除去公共因子以外,另外一部分是用几个与公共因子无关的特殊因子。综上,在因子分析法中,原始变量由两部分表示,一部分是公共因子,另外一部分则是特殊因子。下面给出因子分析的一般模型设有n个样品,每个样品有p个观测指标,且这p个指标相互之间有较强的相关性。为了便于研究,消除由于观测量纲的差异以及数量级不同所造成的影响。我们将对原始数据进行标准化处理,消除变量之间的差异,而且使标准化之后的变量均值为0,方差为1。为方便起见,我们把原始变量标准化处理之后的变量均用X表示,用(m 目录
摘要3
关键词3
Abstract3
Key words3
1、绪论4
1.1选题背景以其意义 4
1.2 多元统计分析简介4
2、多元线性回归分析5
2.1多元线性回归简介5
2.2多元线性回归模型的一般形式5
3、贝叶斯套索回归模型6
3.1套索模型简介6
3.2贝叶斯套索模型简介6
4、因子分析7
4.1主成分分析简介7
4.2因子分析模型简介8
4.2.1主成分分析9
4.2.2主轴因子法9
4.2.3因子旋转10
5、多元统计回归模型在股价中的应用11
5.1多元线性回归11
5.2贝叶斯套索回归12
5.3因子分析法12
5.4结果分析16
致谢16
参考文献17
基于多元线性回归分析的股价预测研究
he stock by using the Bayesian lasso regression model and the Factor analysis regression model respectively. This paper will take the historical data of IBM stock as an example. Regarding the Topen(today’s opening price),the Thigh(the highest price today), Tlow(the lowest price today),Tclose(today’s closing price), Tvolume(Today’s volume) and the Fopen(next day opening price) as the Independent variable, at the same time, I will regard the Fclose(next day closing price) as the Dependent variable .I would like to predict the Fclose, to see how the two models have a better effect on the stock price than the ordinary multiple linear regression model.key words : Multivariate statistical analysis; stock price forecasting; Bayesian regression; Factor analysis绪论1.1选题意义在股票市场中,时时刻刻都会产生大量的交易数据,上市公司也会定期发布财务数据,如何利用这些数据,用来减少投资风险。使得投资人得到值得欣喜的报酬,这个问题研究起来就很有意义了。另外,公司的证券信息也是十分重要的,能够反映一个公司是否值得投资人去投资,一定程度上能够帮助投资者判断股价的变化,因此利用这些信息来判断股票的投资价值是十分重要的。股票是证券市场上的主要投资工具,是证券市场里投资者的重点关注对象,股价也就成了投资的最主要依据。对股价的合理评估,对于热衷于股票投资的投资者来说,是一项需要学习的技术,理性的股票投资决策方法就是帮助投资者对股票票价进行合理评估。本文将从探索股票价格的线性关系出发,以网上下载的IBM公司股票历史数据为基础,将open ,high ,low ,close ,volume五项数据进行整理,重新划分为Topen(今日开盘价),Thigh(今日最高价),Tlow(今日最低价),Tclose(今日收盘价),Tvolume(今日成交额),Fopen(次日开盘价)为自变量,以Fclose(次日收盘价)为因变量,建立一个多元线性回归模型。但是在对模型做初步分析时,发现普通的回归存在着缺陷,预测效果并不是十分出色,继而我们决定一步一步改善这种普通的回归方法,希望得到一个较好的估计结果,即使用贝叶斯套索回归方法以及因子分析回归方法,尝试使用者两种方法进一步来对股价进行预测分析,希望能有较好的指导意义。1.2多元统计分析简介多元统计始于1928年,Wishart在其论文《多元正态总体样本协方差的精确分布》中,首次提到了这个概念,之后Fisher,Hotelling接着他的工作继续完善下去,使得这个概念的理论得到快速发展,并且能够应用于许多的方面,给人类的生活带来了极大的改善。多元统计的再次飞速发展始于20世纪中期,由于电子计算机的出现,多元统计学突破了其巨大计算量的局限性,开始在社会学,气象学,经济学等等各个方面逐渐火热起来,成为了其中不可或缺的一部分[1][2]。在这些方面中,我们常常需要观测不止一个指标来分析问题。以一个区域的经济发展为例,除了GDP以外,人均收入,税收等等也是十分重要的指标。而对于一个公司,不仅仅要看其每年的盈利,劳动生产率等等也十分重要。我们在统计学中称这些指标为变量,但是由于指标的不确定性,故这些指标也称随机变[3]。 那么,问题来了,我们应该采取怎样的方式来对多个随机变量来进行分析呢?传统的方法是把各个变量给孤立开,然后一个个的进行分析,然而这种方法极其死板,因为不对指标之间进行相关性分析,故会丢失十分多的信息,导致最后不能取得好的结果,现在的主流方法则是对多个随机变量同时研究,用多元统计的方法研究各个变量本身以及相互之间的联系。现代这种主流的多变量共同处理的方法,可以将不同变量对于一个确定的变量或者其余变量的作用能够确定的表示出来,能够确切的描述之间的关系;另外多元统计中,消除变量之间的共线性,消除重叠的信息。同时降维的思路也是极其重要的,在尽可能保证原始信息量的同时进行降维,会收到更加好的效果。所以,在股价估计得过程当中,要运用大量的多元统计学的知识,对于大量数据进行分析,探索市场内部的规律,从而能够得到一个好的估计效果,得到让股民满意的投资成果[4]。二、多元线性回归分析2.1多元线性回归简介回归分析是建立在大量的观察数据之上的,用来研究事物变量之间关系的方法。探寻因变量和自变量的相互依赖的关系,故称作多元回归问题。模型建立以及分析的过程如下根据研究的目的,设置目标变量。收集并且整理需要的数据确定相应的数字回归模型参数估计模型检验以及修改2.2 多元线性回归模型的一般形式设随机变量y与其余随机变量的线性回归模型[5]为 (2.1)其中,未知参数,为回归常数,为回归系数。Y称为被因变量,而是p个可测且可操作的变量,我们称之为自变量。对一个实际问题,如果我们获得的n组观测数据(i=1,2,...n)则线性回归模型可表示为 (2.2)其中, (2.3)在多元回归中我们有些基本假定E()=0,i=1,2,...,nE()=0,(i≠j)Var(),i=1,2,...,n为非随机变量观测值的数量要大于待估计参数的数量变量之间不存在严格的线性关系随机误差项服从正态分布且相互独立最后我们根据最小二乘法,即满足残差平方和最小的那一B,可以得到 (2.3)三、贝叶斯套索回归模型3.1套索模型简介套索回归模型[6]在21世纪以来在回归研究中最常被引用的模型,它的实质也是求满足残差平方和最小的那一组数,但是在β的取值上进行了压缩估计,即将所有的的绝对值压缩在一个数t的范围内,即也就是最终表达式为 (3.1)从而得到一组更为有效的β值。3.2贝叶斯套索回归模型简介 贝叶斯套索法在经典回归模型的基础上引入了贝叶斯统计学先验分布的思想,“Bayesian lasso”涉及到对回归系数β在线性回归模型 / (3.2)中的p值的使用双指数的先验收缩[7],在这里y是一个n维向量的观测值,x是一个形式为n*p的矩阵的预测变量,在Bayesian lasso的模型中,特别是当我们的预测变量x太大的时候,先验分布的收缩扮演了一个十分重要的角色。 在这个模型中,我们假设向量y以及矩阵x的列是已经确定的了,所以在模型中的截距项已经不被包含在内了,因为现在我们假设模型中的/是已知的量,所以无论如何,我们现在的工作量就得以大大减轻了。对于一个被给定的模型和先验变量,评估一个不确定模型的关键就是对其能力的评估 / (3.3)其中/是β的标准化评估[8]。四、因子分析模型4.1主成分分析简介主成分分析[9]就是运用降维思路来分析的一种典型方法,把高维转换为低维。把多项指标转化为能承载更多信息的主成分指标,它将一些相关的变量转换为不相关的新变量,根据新变量的方差大小,对新变量依次排序,在保证总方差不变的情况下,将方差最大的新变量称为第一主成分,同理,方差第二大的称为第二主成分且与第一变量不相关。依次类推,I个变量就有I个主成分。假设有n个样本,每个样本测得的p项指标 之间往往具有相关关系。得到原始数据资料阵为 (4.1)其中用矩阵X中的P个列向量作线性组合,得到一组新的综合指标向量,用Y来表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式 (4.2)可以简写为由于经过不同的线性变换后得到的新的综合变量Y并不是完全相同的,他们还是有很大的差距。因此,为了能够得到令人满意的结果,我们希望在中得到的新变量的方差能够尽量大且能够保证各之间相互独立,此外,又因为 而对于任意常数c,有 因此若人主观上对不给予一个必要的限制时,那么Var(Yi)则会随意膨胀增加,这样的话,我们再去研究这个问题就会显得多余且没必要。综上所述,我们在做分析的时候理应将线性变换局限于下述标准之中。Yi与Yj相互无关 (i≠j,i,j=1,2,...,p)。是的一切满足标准(1)中的方差最大综合变量;是与不相关的所以线性组合中方差最大者;......是与都不相关的的所有线性组合中方差最大者。建立于上述标准而确立的综合变量分别称为原始变量的第一第二...第p个主成分。其中,新得到的综合变量的方差应该依次递减,而在我们实际的研究当中,一般挑选前几个方差最大的主成分,一般而言,只要主成分的方差之和占总方差的85%就可以很好的达到简化变量,而又保存大部分信息的效果了,可以便于我们进行进一步的分析。4.2因子分析模型简介因子分析法[10] 的基本思想是从变量内部的相关关系出发,将一些关系十分复杂的变量组整合成少数几个综合因子的一种多元统计方法。它是根据相关性进行分类,将相关性较高的一些变量分在一类,其他的分到其他类,这些把很多变量包含的类,也就称作为公共因子,且是不可测的,可以由人主观命名,另外除去公共因子以外,另外一部分是用几个与公共因子无关的特殊因子。综上,在因子分析法中,原始变量由两部分表示,一部分是公共因子,另外一部分则是特殊因子。下面给出因子分析的一般模型设有n个样品,每个样品有p个观测指标,且这p个指标相互之间有较强的相关性。为了便于研究,消除由于观测量纲的差异以及数量级不同所造成的影响。我们将对原始数据进行标准化处理,消除变量之间的差异,而且使标准化之后的变量均值为0,方差为1。为方便起见,我们把原始变量标准化处理之后的变量均用X表示,用(m
摘要3
关键词3
Abstract3
Key words3
1、绪论4
1.1选题背景以其意义 4
1.2 多元统计分析简介4
2、多元线性回归分析5
2.1多元线性回归简介5
2.2多元线性回归模型的一般形式5
3、贝叶斯套索回归模型6
3.1套索模型简介6
3.2贝叶斯套索模型简介6
4、因子分析7
4.1主成分分析简介7
4.2因子分析模型简介8
4.2.1主成分分析9
4.2.2主轴因子法9
4.2.3因子旋转10
5、多元统计回归模型在股价中的应用11
5.1多元线性回归11
5.2贝叶斯套索回归12
5.3因子分析法12
5.4结果分析16
致谢16
参考文献17
基于多元线性回归分析的股价预测研究
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1706.html