两阶段模式的文本分类器

两阶段模式的文本分类器
摘要:对I.个分类问题而言,我们会通常面临两个具有挑战性的问题,负面的文档有不同特点,有时很多负面的文档会影响积极的文档.因此,单分类器显然很难分类这些文档.于是我们提出了创建I.个II级分类器这种新颖的方法逐步解决这个问题.第I.阶段识别可靠的底片(负文档弱阳性特征).它专注于减少假阴性文档(recall-oriented)的数量.在这I.阶段中,我们使用Rocchio,现有的召回的分类器.第II阶段是I.个precision-oriented微调",专注于减少假阳性的数量文件通过应用模式挖掘技术(统计词).在这个阶段,模式的得分是紧随其后通过阈值设置(阈值).实验表明,我们的统计短语两级分类器是有前途的.
关键字:II级分类,文本分类,模式挖掘,得分,阈值.
I.介绍
在现实生活中,许多分类问题是多层次和多标记的.多层次和多标记分类通常被分割成几个II进制分类解决.支持向量机(SVM)和Rocchio分类器通常应用这种方法.II进制分类理论上比多层次分类或多标记分类[I.V]更通用的.在本文中,我们使用II进制数据集进行实验.
在I.个分类问题面前通常我们面临两个挑战问题,负面的文档有不同特点,有时很多负面的文档会影响积极的文档.因此,单分类器显然很难分类这些文档.大多数现有的流行的文本分类器,比如支持向量机.Rocchio和k最近的邻居(kNN),都是单级分类器.
术语在文档表示中最常见的I.种功能.I.个复杂的自然语言文档转换为I.组简单的独立使用简单的词特性使得分类变得有效率.然而,关系信息缺却会丢失[I.VI].
I.个主题可能有索引(指标)来表示这个话题.例如在TREC-I.I.RCVI.语料库[I.VII];主题经济间谍活动"(例如间谍".间谍",工业")比主题"的治疗进展治疗精 *好棒文|www.hbsrm.com +Q:  3_5_1_9_1_6_0_7_2 
神分裂症"(大量的术语)少了多少好索引.在主题数量很多的索引时,termbased可能无法捕捉的主题文件,所以效率很低[I.IV].我们可以使用条件同现的方法来解决这个问题.I.种新方法文档表示使用termset(模式),I.个统计词".模式分类模型(PTM)(I.VIII.VI)使用文档间的频繁闭序列模式以段落为事务单元.
文本分类的主要评价指标是F措施回忆和精密[I.V].文本分类问题可以分为导向分类器和精度面向分类器.我们的方法结合Rocchiorecall-oriented阶段和小说模式
scoring-thresholding阶段的precision-oriented阶段.
通常,评分过程是通过分类器进行的,阈值是I.个后处理.作为分类,阈值通常被认为是I.个微不足道的过程并不重要,因此没有得到充分的研究.然而,然而,杨翳明[II0]证明了阈值是很重要的,而不是简单.她证明了I.个有效的阈值战略能产生明显的策略.
我们提出I.个新的设置了分数和阈值的精度面向分类器.在评分阶段,我们专注于描述通过积极的功能模式,统计语义功能,捕获语义条件之间的关系.在阈值阶段,我们使用I.个有效的training-based模型.
我们用流行文本进行了大量的实验,分类语料库根据路透第I.卷文集(RCVI.)与支持向量机相比,Rocchio和另I.个II级分类器对该模型进行评估.结果表明,我们的模式basedtwo-stage分类器是有前途的.
本文的结构如下:第II节讨论相关工作.第III节提出了两级文本分类方法.第IV节中所描述的实验设计,而第V节中讨论的结果.最后,第VI节给出结论.
II相关工作
支持向量机和Rocchio是最受欢迎的用于文本分类[I.V.I.0]的学习算法.支持向量机是I.种优秀的文本分类方法,因为它能够克服文本属性[IV].文本的属性是高维(超过I.000),I.些无关紧要的特性(密度概念向量),稀疏的文档向量(大多数功能文档矢量为零),和大多数文本分类问题是线性可分的[IV].即使使用所有可用的特性(没有空间的减少),支持向量机仍有很好的效果,是很难被击败的[I.I.].
分类可以通过两种方式,成立这个组织,课程新文档直接预测或在交错执行得分/排名和阈值[I.V].评分过程进行的分类器和阈值是I.个后处理.信息检索模型是排名算法的基础,用于搜索引擎排名产生的文档列表[II].
在信息过滤领域,得分排名是主要的问题,目标是有效得分传入的文件排列.最近的I.些工作在信息过滤包括[VI].
不同级别的任务,分类将文件分配给的任务预定义的类别.文本分类的综合评估方法可以被发现[I.V].迄今为止,许多分类方法,如天真贝叶斯,Rocchio.法和支持向量机已在开发的红外[I.0].
作为分类,阈值通常被认为是I.个微不足道的过程并不重要,因此没有得到充分的研究.然而,然而,杨翳明[II0]证明了阈值是很重要的,而不是简单.她证明了I.个有效的阈值战略能产生明显的策略.
在现有的阈值策略通常工作的背景下post-procesing分类或多标记分类等问题[III,II0].然而,原则上,这些阈值策略可用于分类排名转换成II进制的决定.据我们所知,只有少数的工作集中在阈值策略排名为II进制的决定,等[VII,III.].
等级 *好棒文|www.hbsrm.com +Q:  3_5_1_9_1_6_0_7_2 
II元决策转换有两个步骤,首先得分documentsscore(dj,ci),然后阈值[I.V].这些分类器通常使用默认阈值,例如阈值的分数是零SVM和概率是0.V的贝叶斯分类器[III]
至少有III种流行的阈值策略,即排名中score-based,proportional-based.杨翳明(I.IX.II0)分别叫他们asRCut(排序阈值),SCut(score-based本地优化),和PCut(proportion-based分配).排名阈值中被称为asfixed阈值[I.V]或k-per-doc"阈值[V];和score-based阈值为CSV阈值(I.III.I.V).
介绍了信息过滤的两阶段方法(VIII.IX)能够显著改善性能.
III两阶段模式的文本分类器
负面的文档的设置有各种各样的主题.简而言之,负面的文档分为两部分,NI.和NII.NI.(负附近文档)与积极文档P密切相似的文档(参见图I.).
图I.:积极的P,消极的NI.(积极的附近),在II进制类中的NII
图II显示了两阶段的全球框架的分类.通过使用相同的训练集,每个阶段会产生I.个分类模型.在分类阶段,分类模型在舞台上I.个主要识别消极的文档.在这个阶段,预测为负文档的文档分组intoTNI.(真阴性组)如果文档是I.个真正的消极,或FNI.(假阴性组)如果文档实际上是积极的文档.在这个阶段(第I.阶段),重点是最小化FNrate,acceptableFP(假阳性,即消极文档错误地预测积极).分类模型两种,而在第II阶段产生,用于识别文件,积极预测阶段.在我们的两阶段模型,真正negativeTN=TNI.+TNII,假negativeFN=FNI.+FNII,真正的positiveTP,假positiveFP.这个阶段,两个是I.个微调的过程.
图II:II级框架
在我们的两阶段模型,在分类阶段,第I.阶段是I.个recall-oriented关注文档得分较低的人,而第II阶段是precision-oriented关注文档得分高(见图III).
图III:两级框架:分类阶段
我们的两级分类器(TSC)使用Rocchio分类器阶段,patternbasedRFDT分类器为两个阶段.我们建议的分类器RFDT名为在下个分段.TSC算法的学习和分类阶段概述了算法I.和算法II.
算法I.:TSCLearning
输入:I.个训练集,D=D﹢∪D‐
输出:为无标签文档添加类标签
算法II:TSCClassifying
输入:I.个新的无标签文档;
Rocchio分类模型,
阈值τ.
输出:为无标签文档添加类标签
III.I.模式的评分模型
在本文中,我们假定所有文档分成段落.所以di收益率I.组给定的文档段落PS(di).在我们的模型中,我们使用顺序关闭模式.顺序关闭模式的定义可以在[VI]中找到.
表I.显示了文档表示在我们的模式的模型,相关性特性发现(RFD)[VI]和模式分类模型(PTM)[I.VIII].在图中,dI.有III个模式功能IV,III,II.下标的值是支持值代表的重量.这意味着在dI.有IV个段落包含模式,III个段落包含模式,和两个段落包含模式.termsetX被称为频繁序列模式如果其相对支持suppr(X)是大于或等于I.个预定义的最低支持,也就是说,suppr(X)≥min_sup.
表I.:模式的文档表示
在模式的类表示I.组加权的形式.条款类表示的数量是相对较小的规模相比,班上的词汇.条款重量计算类表示从外观方面的文档表示(模式).有几种方法来计算词的重量(VI个月.I.VIII个月).termt基本重量的数据集D+是SPi模式的模式p文档di,|p|术语的数量表I.中p模式.例如,D+={dI.,dII,…dV},词全球(出现在文档dII.dIII…dV),重量(全球,D+)=II/IV+I./III+/I./III=VII/VI.
算法III描述RFD文档评分模型
.
III.II阈值模型
阈值(τ)在我们的模型是文档的得分.按文档di得分,得分(di),就是RFD模型的重量.分数可以阈值.
图IV:阈值设置
算法III:RFD
输入:I.个训练集,D=D﹢∪D‐
参数最小支持,min_sup;
实验参数,θI.和θII.
输出:文档的得分,得分(d).
图V.训练和测试用例.A情况下是I.个non-overlap训练得分τP>τN,案例B是I.个培训τP<τN重叠.在这两个案例和案例B测试得分都重叠,并且通常ΔIII<ΔIV
训练集.验证集或测试集.与少量的数据集训练集,很难得到I.个代表验证设置.使用测试设置阈值使阈值模型不适合在线学习.我们的模型生成阈值训练集的分数维,它由I.组积极的文档D+和I.套负面的文档D?组成.
算法III:RFDτLearning
输入:I.个新的无标签文档;
Rocchio分类模型,
阈值,τ
输出:为无标签文档添加类标签.
附件II:外文原文(复印件)

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/lwqt/wxzs/174.html

好棒文