粗糙集的特征选择及其分类研究(源码)【字数:13263】

摘 要摘 要从人工智能的角度来看,粗糙集是一种模仿人脑的思维活动和认知过程用来处理不精确信息的数学工具。但随着处理的数据集规模不断增大,数据复杂度不断增加,传统的粗糙集理论已不能适应于现实工程应用的需求。为此,必须拓展或泛化传统的粗糙集模型。本文从测试代价敏感和样本选择两个角度出发,以粗糙集数据建模和属性约简为研究内容,获得了如下所示的研究成果 1.基于测试代价的模糊集属性约简。模糊粗糙集是一种用于处理连续型数据的数学工具。然而,数据集的分类与约简都会产生测试代价。为解决这一问题,本文将测试代价作为一个评价指标,提出了一种基于遗传策略的模糊集属性约简算法。从实验结果可以得知,新的算法能够在近似质量保持不变或变化较小的前提下,获得一个最小测试代价的约简。 2.基于样本选择的启发式属性约简。传统的启发式算法使用了决策系统中的所有样本,但实际上,每个样本对于约简的贡献程度是不同的,这在一定程度上增加了启发式算法的时间消耗。为解决这一问题,提出了一种基于样本选择的启发式算法,该算法主要分为3步首先从样本集中挑选出重要的样本;然后利用选取出的样本构建新的决策系统;最后利用启发式算法求解约简。实验结果表明,新算法能够有效地减少约简的求解时间。 关键词属性约简;测试代价敏感;样本选择;粗糙集;Abstract
目 录
第一章 绪论 1
1.1 研究背景及研究意义 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.2 粗糙集理论的历史与现状 2
1.2.1 粗糙集理论历史发展 2
1.2.2 粗糙集理论的研究现状 2
1.3 本文的组织结构 3
第二章 粗糙集理论概述 5
2.1 Pawlak经典粗糙集 5
2.1.1 粗糙集的分类 5
2.1.2 上近似和下近似 5
2.1.3 属性约简与特征选择 6
2.2 决策粗糙集 7
2.3 本章小结 9
第三章 特征选择方法概述 10
3.1 引言 10
3.2 基于穷举策略的属性约简算法 10
3.3 基于贪心策略的属性约简算法 1 *好棒文|www.hbsrm.com +Q: @351916072@ 
1
3.4 本章小结 12
第四章 基于测试代价的模糊集属性约简方法研究 13
4.1 引言 13
4.2 基本知识 13
4.2.1 测试代价敏感决策信息系统 13
4.2.2 模糊粗糙集 14
4.2.3 近似质量 14
4.3 测试代价敏感模糊粗糙集的属性约简 15
4.3.1 启发式算法 15
4.3.2 遗传算法 16
4.4 实验分析 17
第五章 基于样本选择的属性约简方法研究 20
5.1 引言 20
5.2 基本知识与样本选择 20
5.2.1 基本知识 20
5.2.2 样本选择 21
5.3 属性约简算法 22
5.3.1 基于启发式的属性约简算法 22
5.3.2 基于样本选择的启发式属性约简算法 23
5.4 实验分析 24
5.5 本章小结 25
结论与展望 26
攻读学士学位期间撰写的论文 27
致谢 28
参考文献 29
第一章 绪论
1.1 研究背景及研究意义
1.1.1 研究背景
二十一世纪是一个信息爆炸的时代。随着互联网技术的普及,人与人间的信息交流日益平繁。信息正以千百亿级别的速度增长。随着信息规模的不断扩大,数据种类日益繁杂[12],使得信息处理的面临极大挑战[34]。
与此同时,除计算机相关学科外,政治、经济和人文等学科的研究与发展也必须基于对海量数据的科学分析。因此,如何有效的从海量的数据中提取出对我们有价值的知识便成为了当今信息处理的重要科学问题之一。
然而,由于我们所研究的客观世界是不断变化的。信息的多样性和复杂性导致了人们认知的不精确性、不确定性和模糊性[511]。面对不确定问题,经典集合论只能束手无策。为此,国内外诸多学者不断探索,致力于寻找能够科学地刻画和处理不确定性问题的合理有效方法。随着研究的不断深入,涌现出了一大批具有坚实理论基础的数学工具,如模糊集、粗糙集、熵空间法等。其中尤为值得注意的是,于上个世纪80年代,波兰学者Pawlak提出的经典粗糙集理论[12]。从智能信息处理的角度来看,粗糙集理论模拟人类思维模式,使用一组近似解代替精确解,以达到提高认知效率的目的。
目前,粗糙集理论[1316]已被成功应用于人工智能、数据挖掘、模式识别[1725]等众多研究领域。
1.1.2 研究意义
分类和特征选择是粗糙集中的2个重要课题。所谓分类,就是使用经典粗糙集定义的信息粒化和上、下近似算子作为基础,将数据集划分成几个部分,每个部分中的样本具有相同属性特征。所谓特征选择(即属性约简[26]),就是使用一系列的方法剔除原数据集中的冗余特征(属性),以达到简化数据集的目的。
Pawlak经典粗糙集以信息粒化和一组下、上近似算子作为其核心思想,但并未考虑代价的问题。众所周知,日常生活中总是存在各种各样的代价问题,经典粗糙集中也存在着代价,比如数据分类所产生的测试代价[27]、将样本划分到错误集合的误分类代价、延迟决策产生的延迟决策代价等。这为代价敏感粗糙集[2830]中的属性约简方法的研究带来机遇。
其次,一般的特征选择算法将数据集中的样本视为同等重要的。而事实却并非如此,数据集中的样本对于分类的贡献度是各不相同的。所以,研究如何在原数据集中挑选出重要的样本,并在新的样本集中进行属性约简对于粗糙集的属性约简方法的进一步发展具有实际意义。
1.2 粗糙集理论的历史与现状
1.2.1 粗糙集理论历史发展
二十世纪九十年代,波兰学者Pawlak提出了粗糙集理论,并发表了第一本关于粗糙集的专注《Rough Sets: Theoretical Aspects of Reasoning about Data》。之后的几十年,粗糙集理论迅速发展,并逐渐从东欧走向世界。在粗糙集广泛传播的过程中,中国的学者也逐渐认识到粗糙集理论的重大发展潜力,开始致力于粗糙集理论的广泛研究。随着研究的不断深入,开始不断涌现出诸多粗糙集研究学者和团队(如刘清、张文修、梁吉业、苗夺谦、王国胤、钱宇华、杨习贝等学者),并在粗糙集研究领域获取了一系列的研究成果,为粗糙集在中国乃至世界的传播和发展做出了极大的贡献。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/rjgc/886.html

好棒文