坐标下降法的疾病分类问题求解

分类问题是机器学习领域的重要研究方向之一。双子支持向量机通过构造两个非平行分类超平面能够有效解决分类问题,坐标下降法由于其能提高求解大规模数据优化问题的效率而被广泛应用于解决实际问题。本文研究的问题是运用坐标下降法求解疾病分类问题。通过构造双子支持向量机相应模型,进行转换使其变为非凸优化问题,最后利用坐标下降法进行求解。同时,利用MATLAB对人工数据进行实验,验证了用坐标下降法求解双子支持向量机模型的可行性,并用UCI数据进行实验,说明通过坐标下降法求解疾病分类问题具有较高的准确率。关键词 支持向量机,双子支持向量机,优化,坐标下降法
目录
1 引言 1
1.1 课题研究背景 1
1.2 国内外研究现状 2
1.3 课题研究内容与意义 3
2 SVM理论基础 4
2.1 支持向量机(SVM) 4
2.2 改进的支持向量机 6
3 双子支持向量机 9
3.1 双子支持向量机模型 10
3.2 双子支持向量机的特点 13
4 坐标下降法 13
4.1 坐标下降法原理 13
4.2 坐标下降法求解TWSVM 14
5 实验结果与分析 16
5.1 实验环境 16
5.2 数值实验 16
总结 21
致谢 22
参考文献 23
1 引言
1.1 课题研究背景
1.1.1 支持向量机
机器学习主要研究的是如何从观察到的数据中找到一定的规律,并使用这些规律来预测未来的数据或者不可观测的数据。机器学习的理论基础是统计学,然而,传统统计学的众多结论都是以足够多样本数量为前提的,所提出的方法和结论只有当样本数量趋于无穷大时才能得到保证。然而,在实际问题中,样本数量往往有限,导致一些理论学习方法(如神经网络)在应用泛化能力上无法达到预期效果。与传统统计方法不同,统计学习理论是一种专门针对小样本的模式识别方法。分类问题是现实当中普遍存在的现象,是机械学习方法中重要的研究内容。
分类是数据挖掘领域的 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
重要任务。当前它广泛应用于客户分类模型,客户流失模型,客户盈利能力等问题当中。分类的目的是学习分类函数或分类器,可以将数据库中的数据项映射到给定的类别,用以预测未知的类别。分类是识别问题的关键一步,随着机器学习算法的不断创新,可以通过数值计算灵活、准确地划分具有不同属性的目标。社会的飞速发展,人们对数据分类的重视水平不断提高。提高疾病分类的准确度成为当今社会的一个重要问题。
支持向量机(简称SVM)是在统计学习理论和优化理论中的成熟的概念,是统计学习理论和优化理论最年轻和实用的理论,可能是最广泛使用于数据挖掘的技术,并已成功应用于许多领域从文本分类,面部验证,语音识别,信息和图像检索,到遥感图像分析,时间序列预测,信息安全,破产预测等。支持向量机是由Vapnik在1993年提出来的。支持向量机是一种基于统计学习理论的数据挖掘新方法,在理论和应用上得到了迅速的发展和完善。支持向量机具有很强的的泛化和全局优化能力,在解决小样本问题、非线性问题、高维数据等问题中表现出许多其它算法不具备的优点,目前己经被广泛应用于文本分类,信息和图像检索,时间序列预测,信息安全,破产预测等分类问题中。SVM是基于结构风险最小化原则的一种二分类模型。当前,支持向量机理论的研究与应用成为了数据挖掘方面重要的研究方向,因此有一大波学者致力于研究此理论,支持向量机被推广应用于多分类等问题中。
最近,与标准SVM寻找两个平行超平面不同,已经提出了一些非平行超平面分类器,例如双子支持向量机(简称TWSVM),在匹配学习领域中已成为研究热点之一。双子支持向量机是2007年Jayadeva基于广义特征值支持向量机提出的一种二分类算法。TWSVM 不仅具有SVM优点,同时还适合处理文本自动分类、基因表达、遥感数据、语音识别等大规模数据分类问题。TWSVM采用一对超平面来分别拟合正负类样本,同时要求非对应类样本远离拟合的超平面。目前,TWSVM已经被研究广泛,并且引申出的许多改进模型,具有重要的研究意义。
1.1.2 坐标下降法
1998年,线性拟合问题 Lasso被新提出的坐标下降法(简称CD)解决。坐标下降法是一种用于解决无约束优化问题的一种方法。坐标下降法的核心思想是将原始优化问题分解为若干个子优化问题,是一个逐步迭代的过程,每次迭代只需要解一个单变量的子优化问题。若在子优化问题的解决过程中能够高效求解,就会使得求解问题的运算收敛速度加快,所以坐标下降法具有较高的效率。坐标下降法是解决大规模优化问题、光滑或不光滑和凸或非凸函数的方法。现代各种应用于机器学习、压缩传感和大规模计算统计产生了新问题适用于CD算法。CD算法通常适用于各种各样的问题涉及大型或高维数据集,因为其使优化问题分解成更简单的子问题。实际上,一些CD变体也被证明在非凸函数收敛具有宽松的属性。CD算法遵循算法的通用方法数值优化,解决一个优化问题通过求解一系列简单的子问题。
1.2 国内外研究现状
1.2.1 支持向量机的研究现状
支持向量机是一种新型的机器学习算法,支持向量机、双子支持向量机能够有效解决分类问题,由于支持向量机是优秀的机器学习算法,具有很大的使用前景,所以引起了人们对这一算法表示极大关注,迄今为止已经有很多学者研究,在很多领域都能成功了应用,并且取得了不少成果。
下面我来介绍一下近年来支持向量机在各领域的应用。李丽提出了一种新的加速大规模样本SVM,应用于人脸识别,说明了SVM可用于多分类问题。常甜甜针对多源数据分类问题提出了分组特征多核SVM,并证明了算法能有效提高分类器的检测性能。张东生利用了向量机分类器算法,给出了该算法的数值例子,实验结果表明该算法具有较快的收敛速度和较高的计算精度。刘建明给出了一种粒子群优化双支持向量机模型,通过与标准支持向量机进行仿真实验对比,验证了该算法的有效性。支持向量机目前是是统计学习理论和优化理论中最年轻也最实用的应用,当前这一算法及其应用的相关研究正在不断的发展中。相当于信息论为信息技术的发展开辟出道路一样,统计学习理论能为机器学习领域带来进一步的发展,使其达到更高的层次。当前这一理论正在不断发展的阶段。支持向量机理论当前还有许多地方违背完善,不断发展支持向量机理论并应用于实践中是许多学者的追求。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1266.html

好棒文