tritraining算法及其在故障诊断的应用

摘 要机器学习主要是指应用计算机模拟或者实现人类的学习行为,根据学习的知识,能够智能地解决实际问题。机器学习一直是学术界的研究热点,目前已经广泛地应用于多个领域。机器学习的基本方法有:有监督学习、无监督学习和半监督学习。其中半监督学习,因为其既能应用有标记样本,又能利用无标记样本,而被广泛使用。Tri-Training算法正是半监督算法的一种,其构造简单,不需要复杂的交叉验证,性能优秀。本文的研究课题就是将半监督Tri-Training算法应用到故障领域:首先对Tri-Training算法进行了详细的分析,讨论了算法的步骤和参数,应用Java语言和Weka平台实现了算法,并且应用算法对故障数据进行了识别,获得了良好的识别性能,证明了算法的有效性。
Keywords: TriTraining algorithm; fault diagnosis; fault data 目 录
第一章 课题介绍 1
1.1课题的意义 1
1.2课题的发展现状和未来方向 1
1.3论文章节安排 2
第二章 开发技术 3
2.1开发环境 3
2.2编程语言 3
2.3开发平台 3
第三章 算法介绍与数据分析 5
3.1算法介绍 5
3.2数据分析 7
第四章 实验系统的设计与实现 9
4.1实验系统的功能 9
4.2实验系统的实现 9
4.3实验结果 12
结束语 13
致 谢 15
参考文献 16
课题介绍
1.1课题的意义
由于互联网的迅猛发展, 人们能够不分时间与不分地域地获得数据和信息。但是该如何有效利用这些庞大的数据, 并有效使用这些信息来提高生产率成为迫切需要解决的难点。 机器学习正是目前解决这类问题的有效方法之一。机器学习(Machine Learning)是一门多领域交叉学科,它涉及概率论、统计学、凸分析、算法重复度理论等多门学科。机器学习主要的研究内容就是应用计算机模拟或实现人类的学习行为,通过该行为获取新的知识或技能,来重新组织已有的知识结构使之能够
 *好棒文|www.hbsrm.com +Q: *351916072* 
不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,它的应用遍及人工智能的各个领域。
机器学习分三种学习方法:包括有监督学习( Supervised Learning ) 、无监督学习( Unsupervised Learning) 和半监督学习( Semi Supervised Learning ) 三种类别。[1]半监督学习是近年来机器学习领域的一个研究热点,它是一种基于标记样本和未标记样本学习的算法。在整个学习过程中无需人工干预,仅基于学习器自身利用未标记示例。半监督学习里有一类协同训练算法,而TriTraining算法是经典的具有代表性的协同训练算法。
故障诊断一般是指利用各种检查和测试方法,来发现系统或者设备是否存在故障的过程。应用机器学习进行故障诊断技术已经发展有几十年,取得很大的成效,产生了巨大的经济效益。因此将机器学习用于故障诊断的研究一直在继续,本课题就是将TriTraining算法应用于故障诊断中,通过利用有无标记样本和未标记样本,充分训练机器算法,从而保证识别性能。
1.2课题的发展现状和未来方向
半监督学习的优越性体现在能同时利用有标签样本和无标签样本学习。它可以先将未标记的数据进行分类,给出类别即标记,然后再把这些被分类器标记的数据加入到训练样本,如此反复进行,使每次迭代都能增加训练样本的个数,这样用来训练分类器的已知信息量就变相增加了,从而提高了分类的正确率。半监督学习作为一种近年新提出的学习策略,[2]弥补了监督学习与无监督学习的不足。在一定程度上半监督能取得比监督学习更好的分类效果,而且更加符合实际应用。例如在文本处理、语音识别、生物信息学、遥感数据处理分类等领域,大量的无标记数据很容易获取,但是对数据进行标记的代价很高,因此半监督算法开始广泛应用,半监督的算法也不断被提出。
一般情况下根据不同的分类标准,半监督学习算法的分类也不一样。按照学习方式分类,大致可以将半监督学习算法分为四类:(1)生成式模型算法:以生成式模型为分类器,用样例的标签对于样例的输入特征的条件概率建模,然后再利用EM算法进行标签估计和模型参考估计;(2)基于图正则化框架的半监督学习算法:该类算法直接或间接的利用了流形假设或局部与全局一致性假设;(3)多视图学习:Blum和Mitchell提出的数据不同视图的思想;[3](4)最小化熵方法:通过使用最小化未标签样例的熵作为正则化项来进行半监督的学习;(5)协同训练算法:使用两个或者多个分类器,通过在不同的视图下的数据进行学习的两个分类器之间的交互来提高分类器的精确度。
本文讨论的TriTraining正是Zhou[4]等人提出的基于三个分类器的协同训练方法,可以有效挖掘大量无标记样本中隐含的有用信息。它不要额外约束条件,训练时间短,已应用在众多领域,例如:基于TriTraining算法的中文短语翻译自由度计算[5],将算法应用到实际场景中,TriTraining半监督学习方法对协同训练的约束较少,能够在现有的语料上测试TriTraining半监督学习方法对短语翻译自由度的学习效果[5];基于TriTraining的图像多特征融合目标分类[6];基于TriTraining半监督学习的中文组织机构名识别[7];基于TriTraining的多特征融合图像检索[8]等。
将机器学习方法应用在故障诊断中的方法也很多:(1)基于蚁群算法的故障识别,该算法是将故障诊断中的故障识别分类问题转化为求解带约束的最优化聚类问题,并应用改进的蚁群算法,基于群体的协作与学习求解这一聚类问题。(2)基于总体平均经验模式分解(EEMD)样本熵和GK模糊聚类的故障特征提取和分类方法,建立了一种机械故障准确识别的有效途径。首先,对机械振动信号进行EEMD分解,得到若干不同时间尺度的固有模态函数(IMF)分量。其次,通过相关性分析和能量相结合的准则对IMF分量进行筛选,并将筛选出的IMF分量的样本熵组成故障特征向量。最后,将构造的特征向量输入到GK模糊聚类分类器中进行聚类识别。(3)基于主成分分析(Principal Components Analysis,PCA)和极限学习机(ELM)相结合的模拟电路故障诊断新方法。在 OrCAD16.3 中通过设置仿真模拟电路元器件参数及其容差,获得电路各状态的 MonteCarlo 样本数据,经 PCA 降维提取特征信息以获得最优的特征模式,继而采用 ELM 对故障进行分类识别。以上只是列举了几种常见的应用在故障诊断中的方法。
由此可见,将机器学习应用到故障诊断中的研究一直都是热点。
1.3论文章节安排
本论文结构安排如下:
第一章,对课题意义进行描述,具体解释分析机器学习、半监督算法以及故障诊断;分析该课题发展的现状及未来趋势。
第二章,对开发环境进行描述,详述使用算法的Java语言的优点以及数据处理平台Weka
第三章,来具体介绍算法以及对进行实验的平台、数据等进行分析介绍。
第四章,阐述实验功能进行讲解并对代码等进行分析描述,根据实验数据来诊断故障。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/2139.html

好棒文