关联规则数据挖掘算法分析
摘要:数据挖掘技术在当今需要存储、处理、计算大量数据与信息的社会中有非常重要的作用。数据挖掘出现之前,海量的数据只是被简单的存储,不能对隐含在其中的信息进行分析、利用与创造价值,数据挖掘由此出现。数据挖掘是新兴且前沿的技术,是信息领域和数据库领域热点之一。数据挖掘技术的快速发展,出现了适合各领域需求各异的多种不同的分析方法与算法。算法是分析方法的具体实现,首先详细介绍了基于关联规则分析的Apriori算法、FP-growth 算法和Eclat算法,并通过对比这些算法在不同数据集的运行结果,分析了算法各自的优缺点及其适用领域,同时探讨了各个算法的优势互补、有机结合以弥补单独算法不足的可能性。
目录
1 绪论 5
1.1 研究背景与意义 5
1.1.1 数据挖掘的商业背景 5
1.1.2 数据挖掘的社会背景 5
1.2 数据挖掘的研究意义 5
1.3 国内外发展及研究现状 5
1.4 开发环境 5
1.4.1 采用Java语言的原因 6
2 数据集介绍 6
3 关联规则算法 6
3.1 Apriori算法 6
3.1.1 Apriori算法介绍 6
3.1.2 Apriori算法实现 6
3.2频繁模式增长算法 7
3.2.1 FPgrowth算法介绍 7
3.2.2 FPgrowth算法实现 7
3.3 Eclat算法 8
3.3.1 Eclat算法介绍 8
3.3.2 Eclat算法实现 8
4 实验结果与分析 9
4.1相同算法对相同数据集进行不同阈值数据挖掘 9
4.1.1 Apriori算法对各个数据集进行不同阈值数据挖掘 9
4.1.2 Fp_growth算法对各个数据集进行不同阈值数据挖掘 10
4.1.3 Eclat算法对各个数据集进行不同阈值数据挖掘 10
4.2 相同算法对不同数据集进行相同阈值数据挖掘 11
4.2.1 Apriori算
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
法对不同数据集进行各个阈值数据挖掘 11
4.2.2 Fp_growth算法对不同数据集进行各个阈值数据挖掘 12
4.2.3 Eclat算法对不同数据集进行各个阈值数据挖掘 13
4.3 不同算法对相同数据集进行相同阈值数据挖掘 13
4.3.1 不同算法对mushroom数据集进行各个阈值数据挖掘 13
4.3.2 不同算法对T10I4D100K数据集进行各个阈值数据挖掘 14
4.3.3 不同算法对accidents数据集进行各个阈值数据挖掘 15
4.3.4 不同算法对connect数据集进行各个阈值数据挖掘 16
5 不同算法的优势与不足 16
6 不足与展望 17
7 致谢 17
参考文献: 17
关联规则数据挖掘算法分析
引言
引言 在第11届国际人工智能协会的会议中,第一次出现了数据库的知识发现的概念,并且在这次会议后,关于知识发现的学术会议与专题研讨会也在很国际知名的会议上提出[1]。继1995年第一届KDD国际学术会议在蒙特利尔举行之后,该会议会每年举行。
KDD是一个迭代的数据处理过程[2]。整个过程需要由用户提供主要决策,并依据决策经历多个步骤来得到结果。具体的工作步骤有:
数据准备;
数据选取;
数据预处理;
数据变换;
确定KDD目标;
选择算法;
数据挖掘;
模式解释;
知识评价。
数据挖掘是一个对知识发现最重要的一个部分[3]。
利用数据挖掘技术的工具已经普及到了很多领域,如HealthKEFIT是用于健康状况预警的知识发现系统[4]。这些系统或工具具有如下共同特征:
海量数据集。
数据利用非常不足。
在开发只是发现系统时,领域专家对该领域的熟悉程度至关重要。
1 绪论
1.1 研究背景与意义
1.1.1 数据挖掘的商业背景
通过商业销售记录收集用于数据挖掘的数据是最重要的一个方面。而数据挖掘的价值主要表现在降低开销与提高收入两个方面。
对商业运营的过程,知识发现用作以下四种工具:
数据挖掘为研究工具。
利用数据挖掘提高过程的效率。
数据挖掘成为市场营销工具。
数据挖掘为管理客户关系提供方法。
1.1.2 数据挖掘的社会背景
数据挖掘在个人预言方面:数据挖掘是通过客户历史记录数据的分析,归类对比,预测客户其后的行为[5]。但实际上,自己的下一步目标客户自己可能都不十分清楚。所以,对于数据挖掘的结果,有一定参考价值,却不一定为生活中的真正答案。
1.2 数据挖掘的研究意义
在信息时代,我们生产和处理数据能力迅速提高,但是被我们直接利用的数据只占我们存储的一部分,将隐含在其中有价值的信息,从随机的,有噪声的信息中提取出来,应用于实际操作中,提供决策支持,创造价值[6]。
1.3 国内外发展及研究现状
其他国家对数据挖掘的研究与应用已有很长的时间的发展,累积了了大量的数据与研究成果[7]。
国外在数据挖掘的应用方面,已经有大量的软数据挖掘软件应用于各种领域,并在应用的领域创造了巨大的价值。
国内对知识与发现的研究要相比于国外,落后的差距较大。我国在1993年才对数据挖掘研究起步,目前主要的研究人员在大学中,并且还停留在对理论的研究。对应用方面还是较为薄弱,所以其研究资金主要是由国家承担的。
1.4 开发环境
本文采用了基于Myeclipse平台的java语言。下面对采用Java语言和Myeclipse平台的原因进行阐述。
1.4.1 采用Java语言的原因
Java语言具有以下特点:
1) 支持多平台,Java虚拟机解决了操作系统和核心系统资源变化对编写的程序造成的影响,Java编写的程序可以在任何安装了Java虚拟机的计算机上正确运行;
目录
1 绪论 5
1.1 研究背景与意义 5
1.1.1 数据挖掘的商业背景 5
1.1.2 数据挖掘的社会背景 5
1.2 数据挖掘的研究意义 5
1.3 国内外发展及研究现状 5
1.4 开发环境 5
1.4.1 采用Java语言的原因 6
2 数据集介绍 6
3 关联规则算法 6
3.1 Apriori算法 6
3.1.1 Apriori算法介绍 6
3.1.2 Apriori算法实现 6
3.2频繁模式增长算法 7
3.2.1 FPgrowth算法介绍 7
3.2.2 FPgrowth算法实现 7
3.3 Eclat算法 8
3.3.1 Eclat算法介绍 8
3.3.2 Eclat算法实现 8
4 实验结果与分析 9
4.1相同算法对相同数据集进行不同阈值数据挖掘 9
4.1.1 Apriori算法对各个数据集进行不同阈值数据挖掘 9
4.1.2 Fp_growth算法对各个数据集进行不同阈值数据挖掘 10
4.1.3 Eclat算法对各个数据集进行不同阈值数据挖掘 10
4.2 相同算法对不同数据集进行相同阈值数据挖掘 11
4.2.1 Apriori算
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
法对不同数据集进行各个阈值数据挖掘 11
4.2.2 Fp_growth算法对不同数据集进行各个阈值数据挖掘 12
4.2.3 Eclat算法对不同数据集进行各个阈值数据挖掘 13
4.3 不同算法对相同数据集进行相同阈值数据挖掘 13
4.3.1 不同算法对mushroom数据集进行各个阈值数据挖掘 13
4.3.2 不同算法对T10I4D100K数据集进行各个阈值数据挖掘 14
4.3.3 不同算法对accidents数据集进行各个阈值数据挖掘 15
4.3.4 不同算法对connect数据集进行各个阈值数据挖掘 16
5 不同算法的优势与不足 16
6 不足与展望 17
7 致谢 17
参考文献: 17
关联规则数据挖掘算法分析
引言
引言 在第11届国际人工智能协会的会议中,第一次出现了数据库的知识发现的概念,并且在这次会议后,关于知识发现的学术会议与专题研讨会也在很国际知名的会议上提出[1]。继1995年第一届KDD国际学术会议在蒙特利尔举行之后,该会议会每年举行。
KDD是一个迭代的数据处理过程[2]。整个过程需要由用户提供主要决策,并依据决策经历多个步骤来得到结果。具体的工作步骤有:
数据准备;
数据选取;
数据预处理;
数据变换;
确定KDD目标;
选择算法;
数据挖掘;
模式解释;
知识评价。
数据挖掘是一个对知识发现最重要的一个部分[3]。
利用数据挖掘技术的工具已经普及到了很多领域,如HealthKEFIT是用于健康状况预警的知识发现系统[4]。这些系统或工具具有如下共同特征:
海量数据集。
数据利用非常不足。
在开发只是发现系统时,领域专家对该领域的熟悉程度至关重要。
1 绪论
1.1 研究背景与意义
1.1.1 数据挖掘的商业背景
通过商业销售记录收集用于数据挖掘的数据是最重要的一个方面。而数据挖掘的价值主要表现在降低开销与提高收入两个方面。
对商业运营的过程,知识发现用作以下四种工具:
数据挖掘为研究工具。
利用数据挖掘提高过程的效率。
数据挖掘成为市场营销工具。
数据挖掘为管理客户关系提供方法。
1.1.2 数据挖掘的社会背景
数据挖掘在个人预言方面:数据挖掘是通过客户历史记录数据的分析,归类对比,预测客户其后的行为[5]。但实际上,自己的下一步目标客户自己可能都不十分清楚。所以,对于数据挖掘的结果,有一定参考价值,却不一定为生活中的真正答案。
1.2 数据挖掘的研究意义
在信息时代,我们生产和处理数据能力迅速提高,但是被我们直接利用的数据只占我们存储的一部分,将隐含在其中有价值的信息,从随机的,有噪声的信息中提取出来,应用于实际操作中,提供决策支持,创造价值[6]。
1.3 国内外发展及研究现状
其他国家对数据挖掘的研究与应用已有很长的时间的发展,累积了了大量的数据与研究成果[7]。
国外在数据挖掘的应用方面,已经有大量的软数据挖掘软件应用于各种领域,并在应用的领域创造了巨大的价值。
国内对知识与发现的研究要相比于国外,落后的差距较大。我国在1993年才对数据挖掘研究起步,目前主要的研究人员在大学中,并且还停留在对理论的研究。对应用方面还是较为薄弱,所以其研究资金主要是由国家承担的。
1.4 开发环境
本文采用了基于Myeclipse平台的java语言。下面对采用Java语言和Myeclipse平台的原因进行阐述。
1.4.1 采用Java语言的原因
Java语言具有以下特点:
1) 支持多平台,Java虚拟机解决了操作系统和核心系统资源变化对编写的程序造成的影响,Java编写的程序可以在任何安装了Java虚拟机的计算机上正确运行;
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2211.html