数据挖掘可视化技术研究
随着经济的迅速发展,市场竞争愈发激烈,为了寻求暴利,欺诈行为出现在各行各业,严重制约着正常的经济发展。尤其在保险业,欺诈行为涉及金额较大、理赔复杂,面对如此复杂的欺诈现象,专门的数据审查人员单靠人工查询已经不能应对如此海量的数据,这给企业在数据分析上带来极大的困扰。另外,在如此庞大的数据集和复杂的数据关系面前,研究匮乏、处理能力有限、扩展性差等问题一一暴露出来。因此,本文将数据挖掘方法应用于保险业欺诈发现中,并以此为案例研究数据挖掘可视化技术。SPSS Modeler是模型丰富的数据挖掘平台,具有可扩展性和强大的数据处理能力,可以帮助解决保险业欺诈发现所面临的问题。因此本文基于SPSS Modeler平台进行实验研究,目的是对保险业案例数据进行分析和挖掘,从而实现保险业欺诈发现。本文分别采用聚类分析方法、关联规则挖掘方法,结合运用经济学Benford定律,根据不同的欺诈现象,建立不同的模型进行分析。文中运用对比法、比较法、关联规则模型等方法,并通过大量的数据进行测试,得到了比较理想的欺诈发现报告,为保险业欺诈发现这一课题提出了很好的模型分析结果。论文按照CRISP-DM(跨行业数据挖掘标准流程)的规范,分成商业理解、数据理解、数据准备、建模等多个阶段。
目录
摘要 I
Abstract II
目录 III
第1章 绪论 1
1.1 研究背景 1
1.2 数据挖掘现状 1
1.3 选题意义 2
1.4 本文的结构和主要工作 3
第2章 相关技术综述 4
2.1 数据挖掘 4
2.1.1 数据挖掘的方法 4
2.1.2 数据挖掘的行业标准CRISPDM 6
2.2 数据挖掘常用方法 8
2.2.1 聚类分析 8
2.2.2关联规则 9
2.3 数据挖掘的工具 9
2.3.1 数据挖掘工具的分类 9
2.3.2 常见的数据挖掘工具介绍 10
第3章 SPSS Modeler数据挖掘平台 12
3.1 SPSS Modeler数据挖掘平台简介 12
3.2 SPSS Mod
*好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2
eler数据挖掘平台的特点 12
3.2.1 SPSS Modeler的界面 12
3.2.2 IBM SPSS Modeler的节点区选项卡 14
3.2.3 IBM SPSS Modeler的三层架构 16
3.3.4 IBM SPSS Modeler的PMML模型 17
3.3 SPSS Modeler的优势 18
第4章 欺诈发现的分析与设计 19
4.1 欺诈发现的需求分析 19
4.2 欺诈发现的方法 20
4.3 欺诈发现的算法与定律 21
4.3.1 Benford定律 21
4.3.2 Apriori算法 22
4.3.3 KMeans算法 23
第5章 基于SPSS Modeler的保险业欺诈发现 25
5.1 数据理解和数据准备 25
5.1.1 数据集概况 25
5.1.2 数据理解和描述 27
5.2 保险业欺诈发现模型的建立与结果分析 31
5.2.1 变量对比模型 31
5.2.2 基于Benford定律的疑似欺诈发现模型 33
5.2.3 基于Apriori算法的疑似欺诈发现模型 36
5.2.4 基于KMeans算法的疑似欺诈发现模型 38
5.3 结果发布 41
第6章 结束语 43
参考文献 44
鸣谢 45
第1章 绪论
1.1 研究背景
在商业社会中,欺诈行为存在于各行各业,这些欺诈行为严重影响了我们的正常经济和生活。常见的欺诈现象,例如:银行业的伪造银行卡,企业偷漏税行为造成市场不公平竞争,保险业的虚假索赔。
面对激烈的市场竞争环境,如何有效地预防欺诈,或者及时发现欺诈行为,是商业社会面临的重大问题之一。在通常情况下,企业中会有专门的欺诈审核人员对客户的可疑行为进行审核,审查他是否存在欺诈现象。然而,对于庞大的交易和数据业务,我们需要计算机的帮助来解决时间和效率上的问题。在企业中,积累的海量数据可以在数据分析时得到充分的应用,可以使用特定的数据分析方法来对所有的数据进行分类筛选,将其中的某些具有欺诈特的记录提取出来。对于明显的欺诈特征,直接进入欺诈处理业务流程,而对那些疑似行为要交给审查人员进一步核查,甚至再进行深入的数据分析。最后,将所得到的业务流程部署到业务系统中,从而可以达到及时发现和制止欺诈行为的效果。随着数据挖掘技术在欺诈发现中的应用,不仅减轻了审查人员的工作量,而且还能处理海量数据,达到实时监控的效果。
在保险行业索赔事件中,可以从通过获取、评估和监测来发现数据处理过程中的问题。就像一个足球教练回顾比赛那天的视频,这是一种对过程,工作流的分析,而且结果可以用于改进未来的结果[1]。《市场趋势:2011 年保险业不可缺少的商业智能分析》一文中指出,商业智能广泛地应用于企业业绩管理中,而保险索赔分析成为许多保险企业乐于投资发展的领域,并且打击欺诈行为,减少欺诈事件变得格外重要,这将帮助保险市场建立健全公平成熟的竞争市场。
1.2 数据挖掘现状
数据挖掘(Data mining,简称DM),是数据库知识发现(KnowledgeDiscovery in Database,KDD)中的一个步骤。所谓数据挖掘,一般是指运用高效合理的算法从大量的数据中搜索并发现隐藏于其中的信息的过程。数据挖掘过程通常与计算机科学相关,它基于统计、模式识别、在线分析处理、机器学习、情报检索、专家系统等诸多方法来分析数据,做出合理性的推理,帮助决策者做出正确的决策[2]。
随着数据库技术的兴起、应用与发展,数据积累日益膨胀,对于企业的商业需求,企业已经不再满足于简单的查询和统计方法,急需要一些革命性的技术和方法去挖掘数据背后的信息。同时,在这段期间,人工智能(Artificial Intelligence)在计算机领域取得巨大进步,进入了机器学习的阶段。因此,人们将此两者有效的结合起来,在数据库管理系统中存储数据,用计算机来分析数据,并且开始尝试探索挖掘隐藏在数据背后的信息。
1989年8月举办的第11届国际人工智能联合会议的专题讨论会首次提出了KDD这一术语,数据挖掘则是KDD的核心部分,它指的是从大量的数据集合中自动选取隐藏在数据中有用信息的非平凡过程[3]。数据挖掘包括了统计分析、数据库、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索和人工智能等多个领域的理论技术和方法,并且被评为21世纪初期对人类进程产生重大影响的十大新兴技术之一。
目前的数据挖掘应用已经涉及到各行各业,相比较而言,在CRM(客户关系管理)、银行业、金融业、电信业、保险业、信用评分、投资股票业、零售业、以及欺诈发现等行业的应用更加普遍。
1.3 选题意义
对于保险行业来说,快速有效地掌握信息是企业发展的不竭动力。近些年,我国的保险业信息不断加速发展,然而人保、平安等大型保险公司以及一些中小公司在信息化的方面还是有些捉襟见肘。对于如今海量数据的市场,很多企业虽然汇集了大量的客户和业务数据,但是由于缺乏在数据挖掘方法,导致出现数据爆炸但是信息匮乏的现象。如果这种情况仍未得到妥善的解决,那么企业将会一直徘徊在低水平阶段。
因此,对于多年存储的海量数据,我们需要运用合理的数据挖掘方法,发现隐藏在客户和业务数据背后的信息和联系。在保险业中,数据挖掘方法可以帮助解决很多问题,例如客户细分、客户风险分析、流失分析、欺诈发现等。
目录
摘要 I
Abstract II
目录 III
第1章 绪论 1
1.1 研究背景 1
1.2 数据挖掘现状 1
1.3 选题意义 2
1.4 本文的结构和主要工作 3
第2章 相关技术综述 4
2.1 数据挖掘 4
2.1.1 数据挖掘的方法 4
2.1.2 数据挖掘的行业标准CRISPDM 6
2.2 数据挖掘常用方法 8
2.2.1 聚类分析 8
2.2.2关联规则 9
2.3 数据挖掘的工具 9
2.3.1 数据挖掘工具的分类 9
2.3.2 常见的数据挖掘工具介绍 10
第3章 SPSS Modeler数据挖掘平台 12
3.1 SPSS Modeler数据挖掘平台简介 12
3.2 SPSS Mod
*好棒文|www.hbsrm.com +Q: 3 5 1 9 1 6 0 7 2
eler数据挖掘平台的特点 12
3.2.1 SPSS Modeler的界面 12
3.2.2 IBM SPSS Modeler的节点区选项卡 14
3.2.3 IBM SPSS Modeler的三层架构 16
3.3.4 IBM SPSS Modeler的PMML模型 17
3.3 SPSS Modeler的优势 18
第4章 欺诈发现的分析与设计 19
4.1 欺诈发现的需求分析 19
4.2 欺诈发现的方法 20
4.3 欺诈发现的算法与定律 21
4.3.1 Benford定律 21
4.3.2 Apriori算法 22
4.3.3 KMeans算法 23
第5章 基于SPSS Modeler的保险业欺诈发现 25
5.1 数据理解和数据准备 25
5.1.1 数据集概况 25
5.1.2 数据理解和描述 27
5.2 保险业欺诈发现模型的建立与结果分析 31
5.2.1 变量对比模型 31
5.2.2 基于Benford定律的疑似欺诈发现模型 33
5.2.3 基于Apriori算法的疑似欺诈发现模型 36
5.2.4 基于KMeans算法的疑似欺诈发现模型 38
5.3 结果发布 41
第6章 结束语 43
参考文献 44
鸣谢 45
第1章 绪论
1.1 研究背景
在商业社会中,欺诈行为存在于各行各业,这些欺诈行为严重影响了我们的正常经济和生活。常见的欺诈现象,例如:银行业的伪造银行卡,企业偷漏税行为造成市场不公平竞争,保险业的虚假索赔。
面对激烈的市场竞争环境,如何有效地预防欺诈,或者及时发现欺诈行为,是商业社会面临的重大问题之一。在通常情况下,企业中会有专门的欺诈审核人员对客户的可疑行为进行审核,审查他是否存在欺诈现象。然而,对于庞大的交易和数据业务,我们需要计算机的帮助来解决时间和效率上的问题。在企业中,积累的海量数据可以在数据分析时得到充分的应用,可以使用特定的数据分析方法来对所有的数据进行分类筛选,将其中的某些具有欺诈特的记录提取出来。对于明显的欺诈特征,直接进入欺诈处理业务流程,而对那些疑似行为要交给审查人员进一步核查,甚至再进行深入的数据分析。最后,将所得到的业务流程部署到业务系统中,从而可以达到及时发现和制止欺诈行为的效果。随着数据挖掘技术在欺诈发现中的应用,不仅减轻了审查人员的工作量,而且还能处理海量数据,达到实时监控的效果。
在保险行业索赔事件中,可以从通过获取、评估和监测来发现数据处理过程中的问题。就像一个足球教练回顾比赛那天的视频,这是一种对过程,工作流的分析,而且结果可以用于改进未来的结果[1]。《市场趋势:2011 年保险业不可缺少的商业智能分析》一文中指出,商业智能广泛地应用于企业业绩管理中,而保险索赔分析成为许多保险企业乐于投资发展的领域,并且打击欺诈行为,减少欺诈事件变得格外重要,这将帮助保险市场建立健全公平成熟的竞争市场。
1.2 数据挖掘现状
数据挖掘(Data mining,简称DM),是数据库知识发现(KnowledgeDiscovery in Database,KDD)中的一个步骤。所谓数据挖掘,一般是指运用高效合理的算法从大量的数据中搜索并发现隐藏于其中的信息的过程。数据挖掘过程通常与计算机科学相关,它基于统计、模式识别、在线分析处理、机器学习、情报检索、专家系统等诸多方法来分析数据,做出合理性的推理,帮助决策者做出正确的决策[2]。
随着数据库技术的兴起、应用与发展,数据积累日益膨胀,对于企业的商业需求,企业已经不再满足于简单的查询和统计方法,急需要一些革命性的技术和方法去挖掘数据背后的信息。同时,在这段期间,人工智能(Artificial Intelligence)在计算机领域取得巨大进步,进入了机器学习的阶段。因此,人们将此两者有效的结合起来,在数据库管理系统中存储数据,用计算机来分析数据,并且开始尝试探索挖掘隐藏在数据背后的信息。
1989年8月举办的第11届国际人工智能联合会议的专题讨论会首次提出了KDD这一术语,数据挖掘则是KDD的核心部分,它指的是从大量的数据集合中自动选取隐藏在数据中有用信息的非平凡过程[3]。数据挖掘包括了统计分析、数据库、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索和人工智能等多个领域的理论技术和方法,并且被评为21世纪初期对人类进程产生重大影响的十大新兴技术之一。
目前的数据挖掘应用已经涉及到各行各业,相比较而言,在CRM(客户关系管理)、银行业、金融业、电信业、保险业、信用评分、投资股票业、零售业、以及欺诈发现等行业的应用更加普遍。
1.3 选题意义
对于保险行业来说,快速有效地掌握信息是企业发展的不竭动力。近些年,我国的保险业信息不断加速发展,然而人保、平安等大型保险公司以及一些中小公司在信息化的方面还是有些捉襟见肘。对于如今海量数据的市场,很多企业虽然汇集了大量的客户和业务数据,但是由于缺乏在数据挖掘方法,导致出现数据爆炸但是信息匮乏的现象。如果这种情况仍未得到妥善的解决,那么企业将会一直徘徊在低水平阶段。
因此,对于多年存储的海量数据,我们需要运用合理的数据挖掘方法,发现隐藏在客户和业务数据背后的信息和联系。在保险业中,数据挖掘方法可以帮助解决很多问题,例如客户细分、客户风险分析、流失分析、欺诈发现等。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wlw/658.html