随机森林及运用randomforestanditsapplication(附件)【字数:6031】
江苏科技大学江苏科技大学随机森林(RF)是一种被广泛运用在数据分类和非参数回归等方面的统计学习理论。它的预测准确率很高,不容易出现很多其他理论会出现的问题,比如过拟合问题等。因为其对异常样本数据具有很高的容忍度,所以,本篇文章涉及了随机森林原理及其性质,并且简单介绍其发展历史和现状以及一些有关经济方面的应用。经过研究各种数据之后,发现随机森林的模型,具备高稳定性和高预测精度的优点。经过对特征变量的评估得出一些结论,有很多能对信用风险预测的准确率产生显著的影响的因素,比如银行账户的状态(存款,预支或剩余款项等情况)、不良/良性信贷历史记录、信贷期限长短、贷款额的多少等等。所以将随机森林算法加入银行用户风险评估,将对银行产生很多积极的影响。关键词随机森林;应用;信贷;数据管理。
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状与发展 1
1.3 研究方法及主要内容 1
第二章 随机森林概述 2
2.1 随机森林定义 2
2.2 随机森林的算法步骤 2
2.3 随机森林的优点 3
2.4 随机森林相关软件 3
2.5 本章小结 4
第三章 随机森林算法的稳定性研究 5
3.1 随机森林算法 5
3.1.1 CART算法 5
3.1.2 C4.5算法 5
3.1.3 混合算法 5
3.2 随机森林混合算法模型分析 6
3.3 随机森林混合算法的稳定性估计 7
第四章 随机森林混合算法的实例应用 9
4.1 随机森林算法在银行个人信用评估中的应用 9
4.1.1 案例分析方法 9
4.1.2 实例分析研究 9
第五章 结论与建议 13
5.1 结论 13
5.2 建议 13
致谢 14
参考文献 15
第一章 绪论
1.1 研究背景
国家在2007年大力推行绿色信贷政策,在这之后我国商业银行借助这一政策,对于信贷领域展开了猛烈的角逐,各类信贷 *好棒文|www.hbsrm.com +Q: ^351916072*
产品如天女散花般在日常生活中出现,然而由于我们国家个人征信系统尚未完备且信用环境及相应的法律法规不完善,虽然个人信贷业务得到了很大的扩展,但是同时也会给银行的运营给予巨大的风险压力。那么,随之而来的问题是如何将信贷风险问题降到一个可控且可接受的的范围之内同时扩大业务规模。一个重要的指标就是个人信用指标,这一指标是对个人的信贷等业务记录进行评分,结合个人的实际情况和生活状况,给出一个相对符合事实的分数。如今“以之前的信贷记录和违约次数记录来建立信用评级系统”是银行用来进行个人信贷决策的前提手段。但是到现在为止的众多探索中,使用单一分类器产生了很多的问题。所以,在2001年由Breiman提出了一种全新的能够解决模型过度拟合的方法:随机森林(即Random Forest或RF)方法。在此之后,随机森林引起了各位学者很大的关注。
1.2 研究现状与发展
纵观古今,随机森林分别在数位伟大的数学家的共同努力下逐渐完善。执行随机森林的重要算法是由Leo Breiman和Adele Cutler最早想到并且提出。然后,有关随机森林特征随即选择的这一方法理论由Amit, Gemen和Ho Tim Kam他们三个各自给出了相应的解释,并且他们借助Breiman的“套袋”思想,提出了控制方差的决策树集合概念。后来,Deitterich将随即节点优化的思维引入模型,这对随机森林的发展产生了很大的影响。但是,如今而言,对于随机森林的研究比较为浅显,根本上存在着一些缺点,而且当今世界是一个大数据的时代。由此,一个新的热点随之产生,即对于这些数据中的信息的采集并进行运用,而随机森林正好可以对这些数据进行一些有效的处理从而给相关企业得出相对较为准确的答案。
1.3 研究方法及主要内容
本次研究主要对随机森林算法和其他的一些算法进行横纵对比和分析,研究其在预测准确性和稳定性方面,以及变量重要性排序方面的特点,并且按照随机森林算法的本质概念将个别算法进行适当的改进,使其更符合未来目标的需要。
第二章 随机森林概述
2.1 随机森林定义
随机森林是用随机的方式建立一个森林(树与树之间没有直接的关系),它是以多个基本分类器一起组成的组合分类器 /。其中元分类器/是用CART算法生成基本无缺陷的回归树分类器;其中,输入变量是,随机变量是,每一棵树都与其中的随机变量有一定的关联性(在集合中的向量都是独立同分布的变量),每一棵树的分类结果简单投票决定随机森林的输出。它是一种有效的分类预测方法,可以执行回归和分类。对于不同的问题采用不同方法的出的结果作为随机森林的输出结果。对于分类问题,随机森林的输出为样本集中包含数量最多的类别;对于回归问题,它的输出为样本集中各个样本值的平均值。同时,它也可以进行数据降维,比如处理缺失值、异常值以及其他一些数据处理。
2.2 随机森林的算法步骤
算法步骤:
(1)令森林中一共有棵树,利用随机并且又放回的重复抽取个样本;
(2)根据(1)所产生的/个样本集生成个树分类器,而后进行树的生长;
(3)新数据(即根据之前建立的CART树分类器而预测的新的未知样本数据)的分类结果按每个分类树投票多少形成的分数来决定。(如图1所示)
(当进行(1)步骤时,每个样本数据均会有近37%的概率不会在样本集中出现,将这种数据称之为带外数据(OOB),根据这些数据可以初步确定每一个树分类器的强度,以及树分类器之间的相关性,由于随机森林的识别能力和,具有一定的关联程度,从而计算出随机森林误差的无偏估计。)
图1:训练过程
2.3 随机森林的优点
(1)随机森林能处理含有噪声的数据,且不会过度拟合,也可分类各类数据。
(2)训练速度快,可以对特征变量以其重要性为度量进行顺序的排布。
(3)参数相对其他算法而言较少且简单。
目录
第一章 绪论 1
1.1 研究背景 1
1.2 研究现状与发展 1
1.3 研究方法及主要内容 1
第二章 随机森林概述 2
2.1 随机森林定义 2
2.2 随机森林的算法步骤 2
2.3 随机森林的优点 3
2.4 随机森林相关软件 3
2.5 本章小结 4
第三章 随机森林算法的稳定性研究 5
3.1 随机森林算法 5
3.1.1 CART算法 5
3.1.2 C4.5算法 5
3.1.3 混合算法 5
3.2 随机森林混合算法模型分析 6
3.3 随机森林混合算法的稳定性估计 7
第四章 随机森林混合算法的实例应用 9
4.1 随机森林算法在银行个人信用评估中的应用 9
4.1.1 案例分析方法 9
4.1.2 实例分析研究 9
第五章 结论与建议 13
5.1 结论 13
5.2 建议 13
致谢 14
参考文献 15
第一章 绪论
1.1 研究背景
国家在2007年大力推行绿色信贷政策,在这之后我国商业银行借助这一政策,对于信贷领域展开了猛烈的角逐,各类信贷 *好棒文|www.hbsrm.com +Q: ^351916072*
产品如天女散花般在日常生活中出现,然而由于我们国家个人征信系统尚未完备且信用环境及相应的法律法规不完善,虽然个人信贷业务得到了很大的扩展,但是同时也会给银行的运营给予巨大的风险压力。那么,随之而来的问题是如何将信贷风险问题降到一个可控且可接受的的范围之内同时扩大业务规模。一个重要的指标就是个人信用指标,这一指标是对个人的信贷等业务记录进行评分,结合个人的实际情况和生活状况,给出一个相对符合事实的分数。如今“以之前的信贷记录和违约次数记录来建立信用评级系统”是银行用来进行个人信贷决策的前提手段。但是到现在为止的众多探索中,使用单一分类器产生了很多的问题。所以,在2001年由Breiman提出了一种全新的能够解决模型过度拟合的方法:随机森林(即Random Forest或RF)方法。在此之后,随机森林引起了各位学者很大的关注。
1.2 研究现状与发展
纵观古今,随机森林分别在数位伟大的数学家的共同努力下逐渐完善。执行随机森林的重要算法是由Leo Breiman和Adele Cutler最早想到并且提出。然后,有关随机森林特征随即选择的这一方法理论由Amit, Gemen和Ho Tim Kam他们三个各自给出了相应的解释,并且他们借助Breiman的“套袋”思想,提出了控制方差的决策树集合概念。后来,Deitterich将随即节点优化的思维引入模型,这对随机森林的发展产生了很大的影响。但是,如今而言,对于随机森林的研究比较为浅显,根本上存在着一些缺点,而且当今世界是一个大数据的时代。由此,一个新的热点随之产生,即对于这些数据中的信息的采集并进行运用,而随机森林正好可以对这些数据进行一些有效的处理从而给相关企业得出相对较为准确的答案。
1.3 研究方法及主要内容
本次研究主要对随机森林算法和其他的一些算法进行横纵对比和分析,研究其在预测准确性和稳定性方面,以及变量重要性排序方面的特点,并且按照随机森林算法的本质概念将个别算法进行适当的改进,使其更符合未来目标的需要。
第二章 随机森林概述
2.1 随机森林定义
随机森林是用随机的方式建立一个森林(树与树之间没有直接的关系),它是以多个基本分类器一起组成的组合分类器 /。其中元分类器/是用CART算法生成基本无缺陷的回归树分类器;其中,输入变量是,随机变量是,每一棵树都与其中的随机变量有一定的关联性(在集合中的向量都是独立同分布的变量),每一棵树的分类结果简单投票决定随机森林的输出。它是一种有效的分类预测方法,可以执行回归和分类。对于不同的问题采用不同方法的出的结果作为随机森林的输出结果。对于分类问题,随机森林的输出为样本集中包含数量最多的类别;对于回归问题,它的输出为样本集中各个样本值的平均值。同时,它也可以进行数据降维,比如处理缺失值、异常值以及其他一些数据处理。
2.2 随机森林的算法步骤
算法步骤:
(1)令森林中一共有棵树,利用随机并且又放回的重复抽取个样本;
(2)根据(1)所产生的/个样本集生成个树分类器,而后进行树的生长;
(3)新数据(即根据之前建立的CART树分类器而预测的新的未知样本数据)的分类结果按每个分类树投票多少形成的分数来决定。(如图1所示)
(当进行(1)步骤时,每个样本数据均会有近37%的概率不会在样本集中出现,将这种数据称之为带外数据(OOB),根据这些数据可以初步确定每一个树分类器的强度,以及树分类器之间的相关性,由于随机森林的识别能力和,具有一定的关联程度,从而计算出随机森林误差的无偏估计。)
图1:训练过程
2.3 随机森林的优点
(1)随机森林能处理含有噪声的数据,且不会过度拟合,也可分类各类数据。
(2)训练速度快,可以对特征变量以其重要性为度量进行顺序的排布。
(3)参数相对其他算法而言较少且简单。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/sxtj/163.html