差分进化算法在聚类分析中的应用研究
差分进化算法在聚类分析中的应用研究[20200121204424]
摘要
聚类分析是一种重要的数据分组方式,在现实生活中被广泛应用在心理学、生物学、统计学和其他社会科学中。经典的聚类分析算法都存在有对初始聚类的选择敏感或者在搜索全局最优解时容易陷入局部最优解等缺点。本文利用差分进化算法,结合MATLAB仿真技术针对聚类分析算法中的缺陷进行优化。另外简介了遗传算法在聚类分析中的仿真来与差分进化算法进行比较。仿真结果显示,利用差分进化算法进行优化后的结果可以有效改善这些缺点,在搜索优化方面明显占优。
*查看完整论文请+Q: 351916072
关键字:差分进化聚类分析MATLAB仿真
Keywords: differential evolutionary ; clustering analysis ; MATLAB simulation 目 录
1.绪论 1
1.1 研究背景和意义 1
1.2 本文研究内容 2
2.聚类分析研究 4
2.1 聚类的基本概念 4
2.2 进化规划算法在聚类分析中的应用研究 5
3.遗传算法在聚类分析中的应用 7
3.1 遗传算法 7
3.2 遗传算法聚类仿真 8
3.2.1实现步骤 8
3.2.2 遗传算法聚类分析效果图 9
4.差分进化算法在聚类分析中的应用研究 11
4.1 差分进化算法 11
4.1.1 基本原理 11
4.1.2 基本流程 11
4.2 差分进化计算仿生计算在聚类分析中的应用 12
4.2.1 实现步骤 12
4.2.2可视化界面的设计制作 13
5.总结 22
5.1 工作总结 22
5.2今后展望 22
参考文献 23
致谢 24
1.绪论
1.1 研究背景和意义
近些年,科学技术飞速发展,数据挖掘技术在信息产业起到了越来越重要的作用,它从信息的采集,分析再到处理,最后将处理过的数据转换成对我们有用的信息和知识。而聚类分析作为数据挖掘中的一项重要的数据对象分组技术,它主要是把相互之间有较大关联的数据对象划分成不同的分组,而没有被分到一组的数据对象之间的关联性不强或没有关联性。并且,通过聚类分析的结果,可以清楚的得到数据对象聚集和分散的分布,进一步能够得到集中数据对象的分布情况。
经典的聚类分析算法都存在比较明显的缺点,那就是他们都会在对初始聚类的选择时十分敏感或者在最优解的搜索中容易陷入局部最优解等缺点。为了使人们在使用聚类分析方法时能够得到更优、更准确的分析结果,这里可以将智能优化算法引入到聚类分析中来。
智能优化算法是通过计算机来模拟人或其它生命体的各种智能行为(智能机制、生命进化演化等过程)而进行的信息的采集、分析和利用的理论方法。其中比较常用的优化算法有:遗传算法、差分进化算法等。由于智能优化算法具有以上的特点及优化特性,在把它应用于聚类分析方法中,根据聚类分析方法中各种聚类算法不同的特点,利用智能优化算法对目标算法进行优化。在解决聚类算法问题的过程中,可以有选择地使用智能优化算法来针对聚类算法存在的问题进行优化,这样不但可以有效地避免聚类算法陷入局部最优解的问题,提高了运算的效率;另外一方面还大大提升了聚类算法的效果。
1.2 本文研究内容
进化算法在搜索方面具有效率高、操作简易,而且应用范围广泛等优点,而差分进化算法则具有更强的全局收敛性和鲁棒性。
本文主要研究的是基于MATLAB仿真的差分进化算法在聚类分析中的应用。具体内容包括聚类分析,遗传算法,进化规划算法和差分进化算法在聚类分析中的应用以及程序的编写和仿真调试。
第一章的绪论主要介绍了本文的研究背景和意义,介绍了近年来聚类分析算法的研究和进展,包括智能优化算法在解决聚类问题方面的国内外专家的研究理论文献。
第二章介绍了聚类分析的一些基本定义,包括聚类的定义和算法原理。介绍了进化规划算法在聚类分析中的应用研究,主要是利用MATLAB对一些数字群的仿真结果,便于与差分进化算法的比较。
第三章介绍了遗传算法在聚类分析中的应用研究。利用MATLAB对遗传算法进行聚类仿真,得到的结果主要用于下一章差分进化算法在聚类结果中的对比,显示出差分进化算法的优势。
第四章介绍了差分进化算法在聚类分析中的应用研究。利用MATLAB对差分算法进行聚类仿真,将仿真结果和遗传算法的仿真结果作对比来验证差分进化算法在搜索优化方面的优势;同时增加迭代次数来验证次数也会对优化算法产生影响。
第五章则对本文进行总结,指出研究完成的研究任务,并指出所做工作尚存在的不足,包括本文研究的一些问题以及差分算法本身自带的一些问题,同时对未来的一些展望。
2.聚类分析研究
2.1 聚类的基本概念
(1) 聚类的定义
聚类分析(cluster analysis)是依据相互之间具有一定的相关关系的样品或指标的特征,对它们按照一定规则进行分类,从而减少研究对象数量的方法,是将研究对象分为各个不同类别的群组(clusters)的统计分析技术。
(2) 聚类的算法原理
首先要逐个扫描样本,依据每个样本与已扫描过的样本的距离来确定是将它们归为以存在的类还是重新生成新类,生成的类与类之间按照类间距离进行合并,当达到某个标准时,目标停止合并。这里涉及到的距离计算问题可以按照距离指标来计算。距离指标的方法非常多,按照不同性质的数据,可选用不同的距离指标来计算。有欧氏距离、夹角余弦距离、二值夹角余弦距离、Tanimoto测度等。实验结果显示采用什么样的方法计算距离是比较重要的,它关系到聚类的结果是否正确。
有两个n维向量 和 ,它们之间的欧氏距离如公式2-1所示。
(2-1)
夹角余弦距离如公式2-2所示。
(2-2)
二值夹角余弦距离如公式2-3所示。
(2-3)
Tanimoto测度如公式2-4所示。
(2-4)
其中欧式距离公式中d越小则两样品距离越近,样品越相似。夹角余弦距离公式则是d值越大则相似度越大。两个公式正好是相反的。另外二值夹角余弦距离公式中则要求 , 向量各个特征都是以二值(0或1)表示,d越大样品越相似。而Tanimoto测度公式是要求 , 向量各个特征都是以二进制值(0或1)表示,d越大样品越相似。从这些公式中我们可以看出距离计算在聚类分析中的重要性。
2.2 进化规划算法在聚类分析中的应用研究
· 进化规划[8]算法是进化计算中的一个分支,它是通过借鉴自然界进化过程得到的一种随机搜索优化方法。进化规划算法之所以能成为搜索优化算法,它在变异运算中加入了正态分布技术,这使得它具有搜索优化的功能。它可以应用于求解组合优化问题和复杂的非线性优化问题,因其只要求所求问题是可以计算的,所以在使用范围上比其他优化算法要广泛的多。
摘要
聚类分析是一种重要的数据分组方式,在现实生活中被广泛应用在心理学、生物学、统计学和其他社会科学中。经典的聚类分析算法都存在有对初始聚类的选择敏感或者在搜索全局最优解时容易陷入局部最优解等缺点。本文利用差分进化算法,结合MATLAB仿真技术针对聚类分析算法中的缺陷进行优化。另外简介了遗传算法在聚类分析中的仿真来与差分进化算法进行比较。仿真结果显示,利用差分进化算法进行优化后的结果可以有效改善这些缺点,在搜索优化方面明显占优。
*查看完整论文请+Q: 351916072
关键字:差分进化聚类分析MATLAB仿真
Keywords: differential evolutionary ; clustering analysis ; MATLAB simulation 目 录
1.绪论 1
1.1 研究背景和意义 1
1.2 本文研究内容 2
2.聚类分析研究 4
2.1 聚类的基本概念 4
2.2 进化规划算法在聚类分析中的应用研究 5
3.遗传算法在聚类分析中的应用 7
3.1 遗传算法 7
3.2 遗传算法聚类仿真 8
3.2.1实现步骤 8
3.2.2 遗传算法聚类分析效果图 9
4.差分进化算法在聚类分析中的应用研究 11
4.1 差分进化算法 11
4.1.1 基本原理 11
4.1.2 基本流程 11
4.2 差分进化计算仿生计算在聚类分析中的应用 12
4.2.1 实现步骤 12
4.2.2可视化界面的设计制作 13
5.总结 22
5.1 工作总结 22
5.2今后展望 22
参考文献 23
致谢 24
1.绪论
1.1 研究背景和意义
近些年,科学技术飞速发展,数据挖掘技术在信息产业起到了越来越重要的作用,它从信息的采集,分析再到处理,最后将处理过的数据转换成对我们有用的信息和知识。而聚类分析作为数据挖掘中的一项重要的数据对象分组技术,它主要是把相互之间有较大关联的数据对象划分成不同的分组,而没有被分到一组的数据对象之间的关联性不强或没有关联性。并且,通过聚类分析的结果,可以清楚的得到数据对象聚集和分散的分布,进一步能够得到集中数据对象的分布情况。
经典的聚类分析算法都存在比较明显的缺点,那就是他们都会在对初始聚类的选择时十分敏感或者在最优解的搜索中容易陷入局部最优解等缺点。为了使人们在使用聚类分析方法时能够得到更优、更准确的分析结果,这里可以将智能优化算法引入到聚类分析中来。
智能优化算法是通过计算机来模拟人或其它生命体的各种智能行为(智能机制、生命进化演化等过程)而进行的信息的采集、分析和利用的理论方法。其中比较常用的优化算法有:遗传算法、差分进化算法等。由于智能优化算法具有以上的特点及优化特性,在把它应用于聚类分析方法中,根据聚类分析方法中各种聚类算法不同的特点,利用智能优化算法对目标算法进行优化。在解决聚类算法问题的过程中,可以有选择地使用智能优化算法来针对聚类算法存在的问题进行优化,这样不但可以有效地避免聚类算法陷入局部最优解的问题,提高了运算的效率;另外一方面还大大提升了聚类算法的效果。
1.2 本文研究内容
进化算法在搜索方面具有效率高、操作简易,而且应用范围广泛等优点,而差分进化算法则具有更强的全局收敛性和鲁棒性。
本文主要研究的是基于MATLAB仿真的差分进化算法在聚类分析中的应用。具体内容包括聚类分析,遗传算法,进化规划算法和差分进化算法在聚类分析中的应用以及程序的编写和仿真调试。
第一章的绪论主要介绍了本文的研究背景和意义,介绍了近年来聚类分析算法的研究和进展,包括智能优化算法在解决聚类问题方面的国内外专家的研究理论文献。
第二章介绍了聚类分析的一些基本定义,包括聚类的定义和算法原理。介绍了进化规划算法在聚类分析中的应用研究,主要是利用MATLAB对一些数字群的仿真结果,便于与差分进化算法的比较。
第三章介绍了遗传算法在聚类分析中的应用研究。利用MATLAB对遗传算法进行聚类仿真,得到的结果主要用于下一章差分进化算法在聚类结果中的对比,显示出差分进化算法的优势。
第四章介绍了差分进化算法在聚类分析中的应用研究。利用MATLAB对差分算法进行聚类仿真,将仿真结果和遗传算法的仿真结果作对比来验证差分进化算法在搜索优化方面的优势;同时增加迭代次数来验证次数也会对优化算法产生影响。
第五章则对本文进行总结,指出研究完成的研究任务,并指出所做工作尚存在的不足,包括本文研究的一些问题以及差分算法本身自带的一些问题,同时对未来的一些展望。
2.聚类分析研究
2.1 聚类的基本概念
(1) 聚类的定义
聚类分析(cluster analysis)是依据相互之间具有一定的相关关系的样品或指标的特征,对它们按照一定规则进行分类,从而减少研究对象数量的方法,是将研究对象分为各个不同类别的群组(clusters)的统计分析技术。
(2) 聚类的算法原理
首先要逐个扫描样本,依据每个样本与已扫描过的样本的距离来确定是将它们归为以存在的类还是重新生成新类,生成的类与类之间按照类间距离进行合并,当达到某个标准时,目标停止合并。这里涉及到的距离计算问题可以按照距离指标来计算。距离指标的方法非常多,按照不同性质的数据,可选用不同的距离指标来计算。有欧氏距离、夹角余弦距离、二值夹角余弦距离、Tanimoto测度等。实验结果显示采用什么样的方法计算距离是比较重要的,它关系到聚类的结果是否正确。
有两个n维向量 和 ,它们之间的欧氏距离如公式2-1所示。
(2-1)
夹角余弦距离如公式2-2所示。
(2-2)
二值夹角余弦距离如公式2-3所示。
(2-3)
Tanimoto测度如公式2-4所示。
(2-4)
其中欧式距离公式中d越小则两样品距离越近,样品越相似。夹角余弦距离公式则是d值越大则相似度越大。两个公式正好是相反的。另外二值夹角余弦距离公式中则要求 , 向量各个特征都是以二值(0或1)表示,d越大样品越相似。而Tanimoto测度公式是要求 , 向量各个特征都是以二进制值(0或1)表示,d越大样品越相似。从这些公式中我们可以看出距离计算在聚类分析中的重要性。
2.2 进化规划算法在聚类分析中的应用研究
· 进化规划[8]算法是进化计算中的一个分支,它是通过借鉴自然界进化过程得到的一种随机搜索优化方法。进化规划算法之所以能成为搜索优化算法,它在变异运算中加入了正态分布技术,这使得它具有搜索优化的功能。它可以应用于求解组合优化问题和复杂的非线性优化问题,因其只要求所求问题是可以计算的,所以在使用范围上比其他优化算法要广泛的多。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jxgc/zdh/4774.html