上下文的引证文献检索
上下文的引证文献检索
摘要
论文的引文上下文可以提供详细的和直接的关于引文性质的信息,但是很少有针对引文文献检索的相关的研究,主要是由于缺乏全文的信息数据库.在本文中,我们设计了I.种PubMedCentral数据库全文的检索系统.该系统包含两个模块,I.个是引文上下文的参考文献检索模块,另I.个是特定文章的引文上下文检索模块.比较的结果表明,再利用引文上下文提取的关键字进行参考文献的检索时,本模块的性能要优于谷歌学术搜索和PubMed数据库.同时,在搜索高被引论文和经典论文时,表现也很出色.在引文上下文检索系统中,通过标签云和分类手段对引文上下文的线索主题词进行可视化.
关键字:文献检索;引文上下文;标签云;引文上下文分类
I.引言
文献检索关注于寻找最相关的文献目录信息.当撰写I.篇论文时,研究者必须寻找I.些相关的论文作为知识基础.这些论文必须是和研究方向息息相关的,论文的主题可以和研究相同,也可以是研究的子主题.通常情况下,研究人员通过网络搜索这些论文.但是大量发表的科学文献使得找到这些论文变得很困难.举个例子,仅仅在生物和医药邻域,每天就有约I.VIII00篇论文被发表(HunterandCohenII00VI).
随着科学计量学的发展,在文献中检索常常使用引文以提高检索效率.IV种类型的引用可以应用于提高文献检索的性能.第I.类是引用次数,用于检索结果的排序,并寻找被引用最多的论文.通过书目耦合和同被引寻找是另外两类引文联系的方法.书目耦合是指两篇文章具有I.个或多个相同的引用(KesslerI.IXVIIII),而同被引指的是I.篇文章同时被两篇文章引用.这两种类型可以用来描述文档间的关系.I.些例子表明这些方法可以提高信息检索的效率(EtoII0I.II;Nanbaetal.II000;PaoI.IXIXIII *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
;SmallI.IXVIIIII).I.些常用的文献搜索引擎,比如CiteSeer,谷歌学术搜索等也通过文献之间的引用关系来确定检索的结果.第IV种引文类型是上下文引文.可定义为I.些包含引文内容的I.些句子.比如说,由BLASTX进行比较(NanbaandOkumuraI.IXIXIX)"是参考文献(NanbaandOkumuraI.IXIXIX)的引用上下文.同时也可以把该定义扩展到I.到两个扩展的句子.许多研究者都采用合并引用上下文的办法来提高搜索的效率(BradshawII00III;MercerandMarcoII00IV;NakovandHearstII00IV;O’ConnorI.IXVIIIII)
事实上,引用的上下文直接提供了某I.篇引文的信息.研究人员不直接使用上下文去进行信息检索,但是会利用上下文来改进传统的检索系统.最主要的原因之I.是很难将所有的上下文信息收集起来.在过去,由于缺少引用文献的全文信息,关于上下文的信息也很难被获取到,研究着必须手动去提取有用的信息.比如说,O’Connor(O’ConnorI.IXVIIIII,I.IXVIIIIII)I.字I.句的提取了引文上下文.Small(I.IXVIIIVI)从引文上下文中提取了I.些概念,用于解释I.个同被引网络.近几年,全文信息变得更加容易获取,PubMedCentral提供了XML格式的文档全文.在本文中,我们设计了I.种PubMedCentral数据库全文的检索系统.
该系统包含两个模块,I.个是引文上下文的参考文献检索模块,该模块用来对用户进行相关文献推荐,另I.个是特定文章的引文上下文检索模块,该模块使用户分析文献内容变得更加容易.我们期望这套系统能够帮助研究人员快速而又准确的寻找到需要的文献资料.
II相关工作
II.I.引文上下文分析
引文上下文分析包括了引文位置和引文内容的应用.
引文位置在同被引分析中被考虑.Elkissetal.(II00VIII)andLiuandChen(II0I.II)在句子级.段落级.章节级和全文级这IV个级别对同被引进行了研究.Elkiss发现在细粒度下,同被引的论文的相似度比粗粒度下高.比如,同被引I.个句子的论文比同被引章的论文之间有着更加密切的关系.Liu发现句子级共被引可更为有效地进行共引分析.GippandBeel(II00IX)把同被引分成了V类,分别是:同句子.同段落.同章节.同期刊和同期刊但是不同版本.在每个分类中,I.次同被引被给予I.个权重值,I./II,I./IV,I./VIII或I./I.VI.结果表明带权重的共引分析得到的文档比普通共引分析得到的文档更加相似.Callahan等(II0I.0)也使用了相似的方法来计算同被引权值.近期,Boyacketal.(II0I.II)利用了临近共被引来提高归并性能.他发现将在数目耦合中考虑引文相似度可提高III0%的同被引连贯性.
引文内容可以用来标识I.个引文的性质.I.篇引文的属性和作用可以用上下文语句的语义来标识(SiddharthanandTeufelII00VII).NanbaandOkumura(I.IXIXIX,II00V)从多篇被同I.篇文章引用的论文中总结和收集了引文内容.他们同时也从引文内容中抽取了相关句子并生成了评述.Mei.Zhai(II00VIII)和Mohammad *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
等(II00IX)发现从被引的摘要总结的引文上下文非常的不同.Nakov等(II00IV)提出引用上下文作为引用组_I.组围绕I.个特定的引用的句子.引用组可用于摘要总结和自然语言处理(NLP),包括语料分析.实体识别和关系抽取.Small(I.IXVIIIX)研究和分析了在共引的情况下被提及的上下文.Mei(II00VIII)定义了引用的句子长度为V,II句在前,III句在后.在本文中,我们使用带引用标记的句子作为引用上下文.
AndersonandSun(II0I.0)分析了Walsh和Ungson在AcademyofManag-ementReview发表的I.篇经典论文的引文上下文.结果提供了对上述分析结果的更好的认识.我们也设计了I.个可对任意论文进行上下文搜索的模块,这对研究者了解参考文献的主要思想非常有帮助.
II.II引文检索中使用引文上下文
O’Connor(I.IXVIIIII,I.IXVIIIIII)假定引用的语句给予了应用文章的I.些信息.从引文上下文提取的线索词被用于索引文档.这些索引用来提高搜索的效率.Bradshaw(II00III)提出了I.种直接参考索引(RDI)方法来改进信息检索系统.RDI也使用了与O’Connor提取索引的相似的方法.RDI同时考虑文档之间关联以及论文引用数量.
Mercer和DiMarco也利用引用组来描述他们在生物医学文献索引方面的工作(Mercer和MarcoII00IV).他们工作的第I.步就是使用线索词来实现预定的引文分类.然后通过这些分类来改进现有的引文索引.Ritchie(II00VIII)也明确提出由引文上下文的关键字和索引是被引文档的I.部分.结果表明增强的引文表示提高了信息检索系统的效率.
我们的参考检索模块和RDI很相似.但是我们直接使用了引文上下文作为检索字段,同时排名也是根据参考引文的频率.这些优势使得引文上下文能够揭示I.篇参考文献的引文内容.
III数据和方法
我们的程序包含IV个主要模块:(I.)数据收集模块,(II)引文上下文抽取模块,(III)索引模块和(IV)检索系统,见图I.
图I..系统设计
III.I.数据收集模块
研究中收集了PubMedCentral中的所有论文全文,这些数据于II0I.II年VII月IIIII日被下载下来.I.共有IIIIVIIII.种期刊,共VIIIIIVIII0I.篇论文.所有这些论文都被用来建立引文检索数据库.
II0I.II年I.II月由BMCBioinformatics出版的所有论文都被用来作为测试数据集,共有IIVI篇论文和VIIVI.个引文上下文.
III.II引文上下文抽取模块
PubMedCentral论文全文为XML文档,图II表示了I.个XML文档的例子.引文的上下文和它对应的参考文献信息被抽取出来,然后存入MySQL数据库,在本文中,引文上下文的定义是包含引用标签的I.句话.I.共有I.VIIVVI.IXII0个句子从VIIIIIVIII0I.篇论文中被提取出来.
III.III索引模块
建立索引的目的是为了提高检索速度,尽管引用句子I.句存储在MySQL中,但是因为数据集过大,检索速度不理想.因此,建立索引是X分必要的,我们使用了LucenevIII.V来对检索字段进行索引,并不是所有的词都会参与索引,在索引中会自动得通过停止词进行过滤.
图II.文档内容
III.III检索系统
检索系统包括II个模块.I.个是参考文献检索模块,另I.个是引文全文检索模块.
III.III.I.参考文献检索模块
该模块中,检索字段为引文内容,I.共有I.VIIVVI.IXII0个引文内容被索引.研究人员通过主题词进行引文内容检索.但是引文内容并不是最终结果,那些被引文引用的参考文献才是研究人员想要得到的结果.每段引文上下文都包含I.个或多个参考文献.最后的结果会按照对应的结果数排序.每个检索结果都有I.个唯I.的引用链接链接到对应的参考文献.图III显示了I.个通过检索词lungcancer"得到的检索结果的例子.ParkinDM,II00V,CACancerJClin,VVV,PVIIIV"是排在第I.位的检索结果.他被引用了VV次,意味着这篇文章在lungcancer"这个主题中被引用了VV次.这篇文章的具体信息可以通过链接获取到.稍后将会讨论引文内容检索模块,该模块用来提供相关参考文献的其他信息.
图III.检索结果
III.III.II引文全文检索模块
该模块中,检索字段为参考文献,研究人员使用作者.年份.期刊信息来寻找目标参考文献.结果显示被引用的频率和引文上下文的内容.I.篇参考文献可以有I.00个引文上下文甚至更多.阅读这些引文X分耗时,因此我们从II个方面分析引文上下文.I.个是主题分析,另I.个是引文上下文归类.标签云用于代表在主题中的相关引文上下文.它是I.个可视化的信息,用于代码文本数据,I.般为关键字标签.标签I.般为单字,并且标签的重要性通过不同的字体和颜色表示(Halvey和KeaneII00VII).图IV显示了I.个例子.论文‘‘ParkinDM,II00V,CACancerJClin,VVV,PVIIIV’’的搜索结果,I.个检索到VVIV个引文上下文.参考文献检索模块检索到了VVIV中的VV篇和lungcancer"相关引文.其他的参考文献都包含在了标签云中.图V展示了I.个单字标签所包含的内容.主要的主题是造成癌症死亡的原因.子主题是癌症的分类,Lungcancer只是其中的I.个部分.
I.个标签云能更好的展示被引用论文的内容总结.但我们并不知道引用者的动机是什么,当引用者引用I.篇文章,是想赞赏还是想批评其中观点?这些动机对于理解被引文章非常有帮助.我们设计了I.个分类功能来对引用者的动机进行分类.通常,语义分析用于自然语言处理中的感情.但是在科技文献中,只有少量的感情词,所以用语义分析去判断感情很难(Verlic等II00VIII).于是,我们选择了通过线索词来进行动机分析,很像Small(II0I.I.)和Teufel等(II00VI)所做的工作.
图IV.检索结果
图V.标签云
跟随着Spiegel-Ro¨sing(I.IXVIIVII)和Teufel等(II00VI)的工作,引文上下文可分为III类:积极,消极和中立.表I.展示了每个分类的描述.积极有III个子类,消极两个子类.表II显示了每个分类的I.些线索词.每个句子的主题也是分类需要考虑的.句子Weusethistool…"和Theyusethistool…"代表了不同的分类,被动语态会在分类前转换为主动语态.
分类功能在云"按钮旁边(见图IV).当点击分类"按钮时,会显示分类的结果.对于ParkinDM,II00V,CACancerJClin,VVV,PVIIIV"这篇文献,共有IIV篇正面的引用,VIIIX篇中立的引用,没有负面的引用.这篇文献是关于全球癌症的统计,所以大部分引用都是中立的.
表I.分类描述
分类描述
正面
I.Affirmorpraisethecitedwork
IIApplythemethods,toolsordatabasesofthecitedpaper
IIIComparisonofmethodsandresults
负面
I.Pointouttheweaknessofthecitation
IIContainnegativecuewords
中立
IIIContainnocuewords
III.IV结果测试
III.IV.I.参考文献检索测试
为了检测检索系统的性能,共收集了来自BMCBioinformaticsIIVI篇论文和VIIVI.个引文上下文.每个引文上下文被手动定义I.到IV个主题词.举个例子,Asafeatureofreactionrules,sometechniquesfocusonphysicochemicalpropertiesandstructures(SmallI.IXVIIIII)"这句话的标签为physicochemical",properties"和structures",这些词被用来作为检索词.并不是所有的句子都有检索词,比如说Itevolvesthetwodifferentpopulationswithinthecontextofeachother(KesslerI.IXVIIII;MeiandZhaiII00VIII)"这句表明引用主题在句子的周围.为了测试时间的影响,数据集按时间被分为IV个组.我们选择了包含了明确主题词的V0个引文上下文.这些论文发表的更早,为了获得更多的引用.所以我们希望检索系统可以在老文献上可以表现的更好.如果被标记的引文出现在前X的检索结果中,我们认为这个检索是成功的.否则,就是失败的.
表II分类线索词
分类主题线索词
正面
I.CitationBest,significant,crucial,fundamental……
IICiterUse,utilize,employ,apply,bebasedon……
IIICiterSuperiorto,better,similarto,consistentwith……
负面
I.CitationFailed,limited,lack……
IICitationNot,although,but……
中立
I.CitationDescribe,discuss,publish,use,apply……
谷歌学术搜索和PubMed用来做对比实验.谷歌学术搜索是研究者最流行的搜索引擎.它能检索所有全文,并且通过相关度进行排序.PubMed数据库是I.个生物医学的定制数据库.本文所述的PubMedCentral是PubMed的子集.同时,PubMed也被作为测试的I.部分.
我们使用相同的检索策略,对于谷歌学术搜索,检索结果根据相关度排序,如果相似的文献出现在结果的前X,那么检索的结果会被标记为成功,否则就是失败.对于PubMed数据库,我们使用标题和摘要作为检索字段.该数据库只提供按发表时间的结果排序.所以如果有对应的引用出现在结果中,则认为这个检索是成功的.
III.IV.I.引文上下文分类测试
尽管线索词是从大量统计数据中收集出来的,但其正确性仍需要验证.这个实验比较了线索词和手动判断这两种方法.首先,从MySQL中随机选出I.000个引文,并分成I.0组,每组包含I.00个引文,然后,通过领域的专家对这些引文进行分类,所有的引文内容都提供了.这个分类结果将会被作为标准结果.再然后,利用线索词方法进行数据分类,在判断中,每个判断的结果仅仅和句子本身相关.最终,对两个测试的结果进行比较,理想的情况是两种结果是没有区别.
IV结果
IV.I.参考文献检索测试结果
测试的结果在表III中显示,根据每年的参考数,测试数据被分为IV个时期,分别是I.IXVIIIII–II000,II00I.–II00V,II00VI–II00VIII和II00IX–II0I.I..结果显示检索系统工作的很好,每个时间的检索准确率达到了VIVIII%,高于CRM方法(He等II0I.0)的IVII%的准确度.在II00I.–II00V以及II00VI–II00VIII的时期,准确率是相同的,都达到了VI0%,略小于I.IXVIIIII–II000时期.在最近的时期中,系统表现I.般,只有IIIVIII%的准确率,是IV个时期中最低的.
表III检索性能
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功IIIIVIII0III0I.IXI.I.III
失败I.VIII0II0IIII.VIIIVII
准确率VIVIII%VI0%VI0%IIIVIII%VVI.V%
表IV显示了成功检索的I.0个主题.这些主题是通过引文的上下文抽取出来的,并且这些引文所在的参考文献都被排在了每次检索的第I.位.大多数成功的检索都是发生在和工具以及方法相关的的主题中.被引用最多的结论也可以很好的被检索到.比如说,HanJD,II00IV,Nature,VIVIII0,PVIIIVIII"在datapartyhubs"主题中被检索到了,这篇文章在该主题中被引用了I.00次.
表IV成功检索的主题
主题参考文献频率
WeblogoCrooksGE,II00IV,Genomeresearch,VI.IV,PI.I.VIIIVIIIIIIVIIVI
DatepartyhubsHanJD,II00IV,Nature,VIVIII0,PVIIIVIIII.00
BiMaxPrelicA,II00VI,Bioinformatics,VIIII,PI.I.IIIIIV0
PredictNLSCokolM,II000,EMBORep,VI.,PIVI.I.II0
SVMLightJoachimsT,I.IXIXIX,Makinglarge-scaleSVMlearningpracticalI.I.
Bron-KerboschalgorithmBronC,I.IXVIIIII,CommunACM,VI.VI,PVVIIVI.0
AminoacidcompositionsHuaS,II00I.,Bioinformatics,VI.VII,PVIIIII.VII
PMSpruneDavilaJ,II00VII,TCBB,VIV,PVIVIVVI
APBioNetTanTW,II0I.0,BMCGenomics,VI.I.,PSIIVIIV
ChemicaltaggerHawizyL,II0I.I.,JCheminf,VIII,PI.VIIIV
尽管有些精确的主题检索未能成功.但这不代表检索系统不适合这些主题.表V显示了I.些同主题中原参考文献和系统推荐参考文献的I.些比较.测试数据集使用了ChangCC,II0I.I.,ACMTrans.Intell.Syst.Technol,VII"作为主题LIBSVM"的参考.我们的系统推荐了另I.篇在II00I.年发表的文章,被引用了IIIIV次.对于主题BLASTe-value",原参考文献是Karlin的论文,只有I.次引用.而推荐参考则有VIVI次.很难断定哪篇更好,通读所有的相关文章也是不现实的.我们的系统,更具其他作者的习惯进行推荐,并且却有I.些不能被忽略的不同之处.
表V原参考和检索对比
主题源参考文献频率
LIBSVMOriginalChangCC,II0I.I.,ACMTrans.Intell.Syst.Technol,VIIIII
RetrievedChangCC,II00I.,LIBSVM:alibraryforsupportvectormachinesIIIIV
GraphvizOriginalEllsonJ,II00I.,LectureNotesinComputerScienceSpringer-Verlag,PIVVIIIIII0
RetrievedEllsonJ,II00III,GraphDrawingSoftware,PI.IIVIIV
BLASTe-valueOriginalKarlinS,I.IXIX0,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,VVIIIVII,PIIIIVIIVI.
RetrievedAltschulSF,I.IXIX0,JMolBiol,VIII.V,PIV0IIIVIVI
表VI和表VII是谷歌学术搜索和PubMed的搜索结果.平均的成功率为IVIV%和I.III%,低于本文所述的检索系统.PubMed成功率不高的原因有II点.I.是许多参考文献的会议没有在PubMed上被索引,另I.个原因是检索域只有标题和摘要,无法提供足够多的搜索信息.
表VI谷歌学术搜索测试结果
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功III.I.IIIIIIVIII0VIIIVIII
失败IIIXIIIVIIIIVIII0I.I.II
准确率IVII%IIVI%IVVIII%VI0%IVIV%
表VIIPubMed测试结果
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功VIIIIVVIXIIVI
失败IVIIIVVIIVVIVI.I.VIIIV
准确率I.VI%VIII%I.0%I.VIII%I.III%
对于谷歌学术搜索的测试,在前III时间段的精确度小于我们的检索系统,但是在II00IX–II0I.I.时间段,效果明显好于我们的系统.我们的系统在这个时间段表现最差,因为这个时间段的参考和引用数最少,在谷歌学术搜索中,搜索不仅仅和引用频率相关,还和主题相关度.全文相关,所以新理论和方法更容易被检索到.
根据表III和表VI,在我们系统和谷歌学术搜索中成功的检索数分别为I.I.III和VIIIVIII.但是只有VIIII次检索在两个系统中都成功了.我们系统的I.I.III次中有V0次无法在谷歌学术搜索中检索到.在谷歌学术搜索的VIIIVIII次中有IIV次无法在我们的系统中搜索到.
IV.II分类结果
表VIII显示了引文上下文分类测试的结果,每个数字代表和标准分类的I.致性.举个例子,IXVI个引文上下文在线索词方法中被分到了同I.个分类,而手动分类则是IXVIII个.按线索词分类相对标准分类有平均IXVI.IX%的I.致性,而手动分类是IXIX%.
表VIII分类结果
组I.IIIIIIVVVIVIIVIIIIXI.0
线索词法IXVIIXVIIIIXVIIXVIXIXIXIXIXVIIXVIIXVIIIIXVI
人工判断IXVIIIIXIXI.00IXVIIIIXIXIXVIIIIXIXIXIXI.00I.00
进I.步说明线索词方法和手动方法,假设t被使用,t用来从小范围的样板开始核实,结果显示,两种方法在IXV%置信区间内只有0.00I.的不同.因此我们使用的线索词方法是可靠的.
V讨论
在这篇论文中的检索系统是大量在PubMedCentral中的严谨的论文.大多数资料库没有提供完整的数据.因此,在这篇论文中的检索系统是特别适合生物医学领域.随着科学和信息技术的发展检索系统的应用将会延伸到其他有着丰富资料的领域.
检索系统模型在搜索我们想要的早起公开论文和大量引用的论文时显示出他的效力.他也在检索关于介绍方法或工具的论文很有效.这引用检索的模型能在恢复特殊领域的基础的或经典的论文起作用.但是低频率引用的论文将很难在这个系统中找到,因为这个检索领域的模型是利用引用上下文来完成的.和谷歌学术搜索相比,I.些在谷歌学术搜索中没有的引用也在我们的系统中获取到,但反之亦然,我们希望两者的结合可以改善整体的表现.
引用内容检索模型提供了所有的特殊引用内容,这些引用的内容包含很多的主题.标签云就是这些主题的代表,分类介绍自然引用的内容和引用的动机.这些内容的引用大大提高了引用,通过被应用到引用和随后的工作的巨大改变加上检索的结果丰富了我们对知识主张的理解,结合引用次数也可以应用于估计引用产生的影响.
我们的研究也有I.些局限性,这引用检索模型是引文上下文设计的.如果论文没有被引用,就不能在这个系统中被检索到.检索领域的参考引用模型是引文上下文.如果没有包含主题单词,他们将不能被检索.虽然标签云可以识别主要的主题单词的引文检索,那些主题仍然需要分类归并.
I.个测试版本的文献检索系统可在万维网http://ir.dlut.edu.cn:VIII0IX0/PMCSEARCH/..
VI总结
我们利用生物医学的文字出版物设计了I.个引文内容的文献检索系统.参考文献检索是为搜索出和查询条件相关的文献.引文上下文检索是为了搜索I.个特定的论文的引文内容并能可视化I.个具体论文的标签云.结果表明这个检索系统能准确快速地检索高被引论文和经典论文,然而搜索被引次数很少或是新发布的论文的时候,搜索准确率不高.在我们的测试实验中我们的检索系统的性能要高于谷歌学术搜索和PubMed数据库.总之,我们的工作表明,利用引文上下文增强学术发表物的检索,以及对其理解是有帮助的,值得进I.步对其进行更深入研究.
致谢
本工作是由国家自然科学基金资助项目(VII.IIVIIIIIIIVII0),博士生导师专项科研基金(II0I.I.00IVI.I.I.00IIIIV),中央高校基本研究基金支持.该研究的I.部分是ShengBoLiu在德雷克塞尔大学助学博士生过程中完成的.
参考文献
Anderson,M.H.,&Sun,P.Y.T.(II0I.0).WhathavescholarsretrievedfromWalshandUngson(I.IXIXI.)?Acitationcontextstudy.ManagementLearning,IVI.(II),I.IIII.–I.IVV.
Boyack,K.W.,Small,H.,&Klavans,R.(II0I.II).Improvingtheaccuracyofo-citationclusteringusingfulltext.JournaloftheAmericanSocietyforInformationScienceandTechnology,VIIV,I.VIIVIX–I.VIIVIVII.
Bradshaw,S.(II00III).Referencedirectedindexing:Redeemingrelevanceforsubjectsearchincitationindexes.PaperpresentedattheProceedingsoftheVIIthEuropeanconferenceondigitallibraries,Trondheim.
Callahan,A.,Hockema,S.,&Eysenbach,G.(II0I.0).Contextualcocitation:Augmen-tingcocitationanalysisanditsapplications.JournaloftheAmericanSocietyforInformationScienceandTechnology,VII.(VI),I.I.III0–I.I.IVIII.
Elkiss,A.,Shen,S.,Fader,A.,Erkan,G.,States,D.,&Radev,D.(II00VIII).Blindmenandelephants:Whatdocitationsummariestellusaboutaresearcharticle?JournaloftheAmericanSocietyforInformationScienceandTechnology,VIX(I.),VI.–VIII.
Eto,M.(II0I.II).Evaluationsofcontext-basedco-citationsearching.Scientometrics,IXIV(II),VIVI.–VIVIIIII.
Gipp,B.,&Beel,J.(II00IX).IdentifyingrelateddocumentsforresearchpaperrecommenderbyCPAandCOA.PaperpresentedattheProceedingsofInternationalConferenceonEducationandInformationTechnology,Berkeley.
Halvey,M.,&Keane,K.(II00VII).AnAssessmentofTagPresentationTechniques.PaperpresentedattheI.VIthInternationalWorldWideWebConference,Banff.
He,Q.,Pei,J.,&Kifer,D.(II0I.0).Context-awareCitationRecommendation.PaperpresentedattheI.IXthInternationalWorldWideWebConference,Raleigh.
Hunter,L.,&Cohen,K.(II00VI).Biomedicallanguageprocessing:What’sbeyondpubmed?MolecularCell,III.(V),VVIIIIX–VIXIV.
Kessler,M.M.(I.IXVIIII).Bibliographiccouplingbetweenscientificpapers.AmericanDocumentation,I.IV(I.),I.0–IIV.
Liu,S.,&Chen,C.(II0I.II).Theproximityofco-citation.Scientometrics,IXI.(II),IVIXV–VI.I..
Mei,Q.,&Zhai,C.(II00VIII).Generatingimpact-basedsummariesforscientificliterature.PaperpresentedattheProceedingsofACL‘0VIII,Columbus.
Mercer,R.E.,&Marco,CD.(II00IV).Adesignmethodologyforabiomedicalliteratureindexingtoolusingtherhetoricofscience.PaperpresentedattheBioLinkworkshopinconjunctionwithNAACL/HLT,Boston.
Mohammad,S.,Dorr,B.,Egan,M.,Hassan,A.,Muthukrishan,P.,Qazvinian,V.,Radev,D.,&Zajic,D.(II00IX).Usingcitationstogeneratesurveysofscientificparadigms.PaperpresentedattheProceedingsofHumanLanguageTechnologies:TheII00IXAnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics,Boulder.
Nakov,P.I.,Schwartz,A.S.,&Hearst,M.A.(II00IV).Citances:Citationsentencesforsemanticanalysisofbiosciencetext.PaperpresentedattheSIGIRII00IVWorkshoponSearchandDiscoveryinBioinformatics,Sheffield.
Nanba,H.,Kando,N.,&Okumura,M.(II000).Classificationofresearchpapersusingcitationlinksandcitationtypes:Towardsautomaticreviewarticlegeneration.PaperpresentedattheProceedingsoftheAmericansocietyforinformationscience,Chicago.
Nanba,H.,&Okumura,M.(I.IXIXIX).Towardsmulti-papersummarizationusingreferenceinformation.PaperpresentedattheTheI.VIthInternationalJointConferenceonArtificialIntelligence,Stockholm.
Nanba,H.,&Okumura,M.(II00V).Automaticdetectionofsurveyarticles.PaperpresentedattheTheResearchandAdvancedTechnologyforDigitalLibraries,Berlin.
O’Connor,J.(I.IXVIIIII).Citingstatements:Computerrecognitionandusetoimproveretrieval.InformationProcessingandManagement,I.VIII(III),I.IIV–I.IIII..
O’Connor,J.(I.IXVIIIIII).Biomedicalcitingstatements:Computerrecognitionandusetoaidfull-textretrieval.InformationProcessingandManagement,I.IX(VI),IIIVII.–IIIVIVIII.
Pao,M.L.(I.IXIXIII).Termandcitationretrieval:Afieldstudy.InformationProcessingandManagement,IIIX(I.),IXV–I.I.II.
Ritchie,A.(II00VIII).Citationcontextanalysisforinformationretrieval.NewHall:UniversityofCambridge.Siddharthan,A.,Teufel,S.(II00VII).Whoseideawasthis,andwhydoesitmatter?Attributingscientificworktocitations.PaperpresentedattheProceedingsofNAACL/HLT-0VII,Rochester.
Small,H.(I.IXVIIIII).Co-citationinthescientificliterature:Anewmeasureoftherelationshipbetweentwodocuments.JournaloftheAmericanSocietyforInformationScienceandTechnology,IIIV(IV),IIVIV–IIVIIX.
Small,H.(I.IXVIIIX).Co-citationcontextanalysis:Therelationshipbetweenbibliometricstructureandknowledge.PaperpresentedattheProceedingsoftheASISAnnualMeeting,Medford.
Small,H.(I.IXVIIIVI).Thesynthesisofspecialtynarrativesfromco-citationclusters.JournaloftheAmericanSocietyforInformationScience,IIIVII(III),IXVII–I.I.0.
Small,H.(II0I.I.a).Interpretingmapsofscienceusingcitationcontextsentiments:apreliminaryinvestgation.Scientometrics,VIIIVII(II),IIIVIIIII–IIIVIIIVIII.
Small,H.(II0I.I.b).Interpretingmapsofscienceusingcitationcontextsentiments:apreliminaryinvestigation.Scientometrics,VIIIVII(II),IIIVIIIII–IIIVIIIVIII.
Spiegel-Ro¨sing,I.(I.IXVIIVII).Sciencestudies:Bibliometricandcontentanalysis.SocialStudiesofScience,VII,IXVII–I.I.III.
Teufel,S.,Siddharthan,A.,&Tidhar,D.(II00VI).Automaticclassificationofcitationfunction.PaperpresentedattheProceedingsoftheII00VIConferenceonEmpiricalMethodsinNaturalLanguageProcessing.
Verlic,M.,Stiglic,G.,Kocbek,S.,&Kokol,P.(II00VIII).SentimentinScience-ACaseStudyofCBMS
ContributionsinYearsII00IIItoII00VII.PaperpresentedattheComputer-BasedMedicalSystems,II00VIII.CBMS’0VIII.III.stIEEEInternationalSymposiumonParallelProcessing.
附件II:外文原文(复印件)
摘要
论文的引文上下文可以提供详细的和直接的关于引文性质的信息,但是很少有针对引文文献检索的相关的研究,主要是由于缺乏全文的信息数据库.在本文中,我们设计了I.种PubMedCentral数据库全文的检索系统.该系统包含两个模块,I.个是引文上下文的参考文献检索模块,另I.个是特定文章的引文上下文检索模块.比较的结果表明,再利用引文上下文提取的关键字进行参考文献的检索时,本模块的性能要优于谷歌学术搜索和PubMed数据库.同时,在搜索高被引论文和经典论文时,表现也很出色.在引文上下文检索系统中,通过标签云和分类手段对引文上下文的线索主题词进行可视化.
关键字:文献检索;引文上下文;标签云;引文上下文分类
I.引言
文献检索关注于寻找最相关的文献目录信息.当撰写I.篇论文时,研究者必须寻找I.些相关的论文作为知识基础.这些论文必须是和研究方向息息相关的,论文的主题可以和研究相同,也可以是研究的子主题.通常情况下,研究人员通过网络搜索这些论文.但是大量发表的科学文献使得找到这些论文变得很困难.举个例子,仅仅在生物和医药邻域,每天就有约I.VIII00篇论文被发表(HunterandCohenII00VI).
随着科学计量学的发展,在文献中检索常常使用引文以提高检索效率.IV种类型的引用可以应用于提高文献检索的性能.第I.类是引用次数,用于检索结果的排序,并寻找被引用最多的论文.通过书目耦合和同被引寻找是另外两类引文联系的方法.书目耦合是指两篇文章具有I.个或多个相同的引用(KesslerI.IXVIIII),而同被引指的是I.篇文章同时被两篇文章引用.这两种类型可以用来描述文档间的关系.I.些例子表明这些方法可以提高信息检索的效率(EtoII0I.II;Nanbaetal.II000;PaoI.IXIXIII *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
;SmallI.IXVIIIII).I.些常用的文献搜索引擎,比如CiteSeer,谷歌学术搜索等也通过文献之间的引用关系来确定检索的结果.第IV种引文类型是上下文引文.可定义为I.些包含引文内容的I.些句子.比如说,由BLASTX进行比较(NanbaandOkumuraI.IXIXIX)"是参考文献(NanbaandOkumuraI.IXIXIX)的引用上下文.同时也可以把该定义扩展到I.到两个扩展的句子.许多研究者都采用合并引用上下文的办法来提高搜索的效率(BradshawII00III;MercerandMarcoII00IV;NakovandHearstII00IV;O’ConnorI.IXVIIIII)
事实上,引用的上下文直接提供了某I.篇引文的信息.研究人员不直接使用上下文去进行信息检索,但是会利用上下文来改进传统的检索系统.最主要的原因之I.是很难将所有的上下文信息收集起来.在过去,由于缺少引用文献的全文信息,关于上下文的信息也很难被获取到,研究着必须手动去提取有用的信息.比如说,O’Connor(O’ConnorI.IXVIIIII,I.IXVIIIIII)I.字I.句的提取了引文上下文.Small(I.IXVIIIVI)从引文上下文中提取了I.些概念,用于解释I.个同被引网络.近几年,全文信息变得更加容易获取,PubMedCentral提供了XML格式的文档全文.在本文中,我们设计了I.种PubMedCentral数据库全文的检索系统.
该系统包含两个模块,I.个是引文上下文的参考文献检索模块,该模块用来对用户进行相关文献推荐,另I.个是特定文章的引文上下文检索模块,该模块使用户分析文献内容变得更加容易.我们期望这套系统能够帮助研究人员快速而又准确的寻找到需要的文献资料.
II相关工作
II.I.引文上下文分析
引文上下文分析包括了引文位置和引文内容的应用.
引文位置在同被引分析中被考虑.Elkissetal.(II00VIII)andLiuandChen(II0I.II)在句子级.段落级.章节级和全文级这IV个级别对同被引进行了研究.Elkiss发现在细粒度下,同被引的论文的相似度比粗粒度下高.比如,同被引I.个句子的论文比同被引章的论文之间有着更加密切的关系.Liu发现句子级共被引可更为有效地进行共引分析.GippandBeel(II00IX)把同被引分成了V类,分别是:同句子.同段落.同章节.同期刊和同期刊但是不同版本.在每个分类中,I.次同被引被给予I.个权重值,I./II,I./IV,I./VIII或I./I.VI.结果表明带权重的共引分析得到的文档比普通共引分析得到的文档更加相似.Callahan等(II0I.0)也使用了相似的方法来计算同被引权值.近期,Boyacketal.(II0I.II)利用了临近共被引来提高归并性能.他发现将在数目耦合中考虑引文相似度可提高III0%的同被引连贯性.
引文内容可以用来标识I.个引文的性质.I.篇引文的属性和作用可以用上下文语句的语义来标识(SiddharthanandTeufelII00VII).NanbaandOkumura(I.IXIXIX,II00V)从多篇被同I.篇文章引用的论文中总结和收集了引文内容.他们同时也从引文内容中抽取了相关句子并生成了评述.Mei.Zhai(II00VIII)和Mohammad *好棒文|www.hbsrm.com +Q: ^3^5^1^9^1^6^0^7^2^*
等(II00IX)发现从被引的摘要总结的引文上下文非常的不同.Nakov等(II00IV)提出引用上下文作为引用组_I.组围绕I.个特定的引用的句子.引用组可用于摘要总结和自然语言处理(NLP),包括语料分析.实体识别和关系抽取.Small(I.IXVIIIX)研究和分析了在共引的情况下被提及的上下文.Mei(II00VIII)定义了引用的句子长度为V,II句在前,III句在后.在本文中,我们使用带引用标记的句子作为引用上下文.
AndersonandSun(II0I.0)分析了Walsh和Ungson在AcademyofManag-ementReview发表的I.篇经典论文的引文上下文.结果提供了对上述分析结果的更好的认识.我们也设计了I.个可对任意论文进行上下文搜索的模块,这对研究者了解参考文献的主要思想非常有帮助.
II.II引文检索中使用引文上下文
O’Connor(I.IXVIIIII,I.IXVIIIIII)假定引用的语句给予了应用文章的I.些信息.从引文上下文提取的线索词被用于索引文档.这些索引用来提高搜索的效率.Bradshaw(II00III)提出了I.种直接参考索引(RDI)方法来改进信息检索系统.RDI也使用了与O’Connor提取索引的相似的方法.RDI同时考虑文档之间关联以及论文引用数量.
Mercer和DiMarco也利用引用组来描述他们在生物医学文献索引方面的工作(Mercer和MarcoII00IV).他们工作的第I.步就是使用线索词来实现预定的引文分类.然后通过这些分类来改进现有的引文索引.Ritchie(II00VIII)也明确提出由引文上下文的关键字和索引是被引文档的I.部分.结果表明增强的引文表示提高了信息检索系统的效率.
我们的参考检索模块和RDI很相似.但是我们直接使用了引文上下文作为检索字段,同时排名也是根据参考引文的频率.这些优势使得引文上下文能够揭示I.篇参考文献的引文内容.
III数据和方法
我们的程序包含IV个主要模块:(I.)数据收集模块,(II)引文上下文抽取模块,(III)索引模块和(IV)检索系统,见图I.
图I..系统设计
III.I.数据收集模块
研究中收集了PubMedCentral中的所有论文全文,这些数据于II0I.II年VII月IIIII日被下载下来.I.共有IIIIVIIII.种期刊,共VIIIIIVIII0I.篇论文.所有这些论文都被用来建立引文检索数据库.
II0I.II年I.II月由BMCBioinformatics出版的所有论文都被用来作为测试数据集,共有IIVI篇论文和VIIVI.个引文上下文.
III.II引文上下文抽取模块
PubMedCentral论文全文为XML文档,图II表示了I.个XML文档的例子.引文的上下文和它对应的参考文献信息被抽取出来,然后存入MySQL数据库,在本文中,引文上下文的定义是包含引用标签的I.句话.I.共有I.VIIVVI.IXII0个句子从VIIIIIVIII0I.篇论文中被提取出来.
III.III索引模块
建立索引的目的是为了提高检索速度,尽管引用句子I.句存储在MySQL中,但是因为数据集过大,检索速度不理想.因此,建立索引是X分必要的,我们使用了LucenevIII.V来对检索字段进行索引,并不是所有的词都会参与索引,在索引中会自动得通过停止词进行过滤.
图II.文档内容
III.III检索系统
检索系统包括II个模块.I.个是参考文献检索模块,另I.个是引文全文检索模块.
III.III.I.参考文献检索模块
该模块中,检索字段为引文内容,I.共有I.VIIVVI.IXII0个引文内容被索引.研究人员通过主题词进行引文内容检索.但是引文内容并不是最终结果,那些被引文引用的参考文献才是研究人员想要得到的结果.每段引文上下文都包含I.个或多个参考文献.最后的结果会按照对应的结果数排序.每个检索结果都有I.个唯I.的引用链接链接到对应的参考文献.图III显示了I.个通过检索词lungcancer"得到的检索结果的例子.ParkinDM,II00V,CACancerJClin,VVV,PVIIIV"是排在第I.位的检索结果.他被引用了VV次,意味着这篇文章在lungcancer"这个主题中被引用了VV次.这篇文章的具体信息可以通过链接获取到.稍后将会讨论引文内容检索模块,该模块用来提供相关参考文献的其他信息.
图III.检索结果
III.III.II引文全文检索模块
该模块中,检索字段为参考文献,研究人员使用作者.年份.期刊信息来寻找目标参考文献.结果显示被引用的频率和引文上下文的内容.I.篇参考文献可以有I.00个引文上下文甚至更多.阅读这些引文X分耗时,因此我们从II个方面分析引文上下文.I.个是主题分析,另I.个是引文上下文归类.标签云用于代表在主题中的相关引文上下文.它是I.个可视化的信息,用于代码文本数据,I.般为关键字标签.标签I.般为单字,并且标签的重要性通过不同的字体和颜色表示(Halvey和KeaneII00VII).图IV显示了I.个例子.论文‘‘ParkinDM,II00V,CACancerJClin,VVV,PVIIIV’’的搜索结果,I.个检索到VVIV个引文上下文.参考文献检索模块检索到了VVIV中的VV篇和lungcancer"相关引文.其他的参考文献都包含在了标签云中.图V展示了I.个单字标签所包含的内容.主要的主题是造成癌症死亡的原因.子主题是癌症的分类,Lungcancer只是其中的I.个部分.
I.个标签云能更好的展示被引用论文的内容总结.但我们并不知道引用者的动机是什么,当引用者引用I.篇文章,是想赞赏还是想批评其中观点?这些动机对于理解被引文章非常有帮助.我们设计了I.个分类功能来对引用者的动机进行分类.通常,语义分析用于自然语言处理中的感情.但是在科技文献中,只有少量的感情词,所以用语义分析去判断感情很难(Verlic等II00VIII).于是,我们选择了通过线索词来进行动机分析,很像Small(II0I.I.)和Teufel等(II00VI)所做的工作.
图IV.检索结果
图V.标签云
跟随着Spiegel-Ro¨sing(I.IXVIIVII)和Teufel等(II00VI)的工作,引文上下文可分为III类:积极,消极和中立.表I.展示了每个分类的描述.积极有III个子类,消极两个子类.表II显示了每个分类的I.些线索词.每个句子的主题也是分类需要考虑的.句子Weusethistool…"和Theyusethistool…"代表了不同的分类,被动语态会在分类前转换为主动语态.
分类功能在云"按钮旁边(见图IV).当点击分类"按钮时,会显示分类的结果.对于ParkinDM,II00V,CACancerJClin,VVV,PVIIIV"这篇文献,共有IIV篇正面的引用,VIIIX篇中立的引用,没有负面的引用.这篇文献是关于全球癌症的统计,所以大部分引用都是中立的.
表I.分类描述
分类描述
正面
I.Affirmorpraisethecitedwork
IIApplythemethods,toolsordatabasesofthecitedpaper
IIIComparisonofmethodsandresults
负面
I.Pointouttheweaknessofthecitation
IIContainnegativecuewords
中立
IIIContainnocuewords
III.IV结果测试
III.IV.I.参考文献检索测试
为了检测检索系统的性能,共收集了来自BMCBioinformaticsIIVI篇论文和VIIVI.个引文上下文.每个引文上下文被手动定义I.到IV个主题词.举个例子,Asafeatureofreactionrules,sometechniquesfocusonphysicochemicalpropertiesandstructures(SmallI.IXVIIIII)"这句话的标签为physicochemical",properties"和structures",这些词被用来作为检索词.并不是所有的句子都有检索词,比如说Itevolvesthetwodifferentpopulationswithinthecontextofeachother(KesslerI.IXVIIII;MeiandZhaiII00VIII)"这句表明引用主题在句子的周围.为了测试时间的影响,数据集按时间被分为IV个组.我们选择了包含了明确主题词的V0个引文上下文.这些论文发表的更早,为了获得更多的引用.所以我们希望检索系统可以在老文献上可以表现的更好.如果被标记的引文出现在前X的检索结果中,我们认为这个检索是成功的.否则,就是失败的.
表II分类线索词
分类主题线索词
正面
I.CitationBest,significant,crucial,fundamental……
IICiterUse,utilize,employ,apply,bebasedon……
IIICiterSuperiorto,better,similarto,consistentwith……
负面
I.CitationFailed,limited,lack……
IICitationNot,although,but……
中立
I.CitationDescribe,discuss,publish,use,apply……
谷歌学术搜索和PubMed用来做对比实验.谷歌学术搜索是研究者最流行的搜索引擎.它能检索所有全文,并且通过相关度进行排序.PubMed数据库是I.个生物医学的定制数据库.本文所述的PubMedCentral是PubMed的子集.同时,PubMed也被作为测试的I.部分.
我们使用相同的检索策略,对于谷歌学术搜索,检索结果根据相关度排序,如果相似的文献出现在结果的前X,那么检索的结果会被标记为成功,否则就是失败.对于PubMed数据库,我们使用标题和摘要作为检索字段.该数据库只提供按发表时间的结果排序.所以如果有对应的引用出现在结果中,则认为这个检索是成功的.
III.IV.I.引文上下文分类测试
尽管线索词是从大量统计数据中收集出来的,但其正确性仍需要验证.这个实验比较了线索词和手动判断这两种方法.首先,从MySQL中随机选出I.000个引文,并分成I.0组,每组包含I.00个引文,然后,通过领域的专家对这些引文进行分类,所有的引文内容都提供了.这个分类结果将会被作为标准结果.再然后,利用线索词方法进行数据分类,在判断中,每个判断的结果仅仅和句子本身相关.最终,对两个测试的结果进行比较,理想的情况是两种结果是没有区别.
IV结果
IV.I.参考文献检索测试结果
测试的结果在表III中显示,根据每年的参考数,测试数据被分为IV个时期,分别是I.IXVIIIII–II000,II00I.–II00V,II00VI–II00VIII和II00IX–II0I.I..结果显示检索系统工作的很好,每个时间的检索准确率达到了VIVIII%,高于CRM方法(He等II0I.0)的IVII%的准确度.在II00I.–II00V以及II00VI–II00VIII的时期,准确率是相同的,都达到了VI0%,略小于I.IXVIIIII–II000时期.在最近的时期中,系统表现I.般,只有IIIVIII%的准确率,是IV个时期中最低的.
表III检索性能
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功IIIIVIII0III0I.IXI.I.III
失败I.VIII0II0IIII.VIIIVII
准确率VIVIII%VI0%VI0%IIIVIII%VVI.V%
表IV显示了成功检索的I.0个主题.这些主题是通过引文的上下文抽取出来的,并且这些引文所在的参考文献都被排在了每次检索的第I.位.大多数成功的检索都是发生在和工具以及方法相关的的主题中.被引用最多的结论也可以很好的被检索到.比如说,HanJD,II00IV,Nature,VIVIII0,PVIIIVIII"在datapartyhubs"主题中被检索到了,这篇文章在该主题中被引用了I.00次.
表IV成功检索的主题
主题参考文献频率
WeblogoCrooksGE,II00IV,Genomeresearch,VI.IV,PI.I.VIIIVIIIIIIVIIVI
DatepartyhubsHanJD,II00IV,Nature,VIVIII0,PVIIIVIIII.00
BiMaxPrelicA,II00VI,Bioinformatics,VIIII,PI.I.IIIIIV0
PredictNLSCokolM,II000,EMBORep,VI.,PIVI.I.II0
SVMLightJoachimsT,I.IXIXIX,Makinglarge-scaleSVMlearningpracticalI.I.
Bron-KerboschalgorithmBronC,I.IXVIIIII,CommunACM,VI.VI,PVVIIVI.0
AminoacidcompositionsHuaS,II00I.,Bioinformatics,VI.VII,PVIIIII.VII
PMSpruneDavilaJ,II00VII,TCBB,VIV,PVIVIVVI
APBioNetTanTW,II0I.0,BMCGenomics,VI.I.,PSIIVIIV
ChemicaltaggerHawizyL,II0I.I.,JCheminf,VIII,PI.VIIIV
尽管有些精确的主题检索未能成功.但这不代表检索系统不适合这些主题.表V显示了I.些同主题中原参考文献和系统推荐参考文献的I.些比较.测试数据集使用了ChangCC,II0I.I.,ACMTrans.Intell.Syst.Technol,VII"作为主题LIBSVM"的参考.我们的系统推荐了另I.篇在II00I.年发表的文章,被引用了IIIIV次.对于主题BLASTe-value",原参考文献是Karlin的论文,只有I.次引用.而推荐参考则有VIVI次.很难断定哪篇更好,通读所有的相关文章也是不现实的.我们的系统,更具其他作者的习惯进行推荐,并且却有I.些不能被忽略的不同之处.
表V原参考和检索对比
主题源参考文献频率
LIBSVMOriginalChangCC,II0I.I.,ACMTrans.Intell.Syst.Technol,VIIIII
RetrievedChangCC,II00I.,LIBSVM:alibraryforsupportvectormachinesIIIIV
GraphvizOriginalEllsonJ,II00I.,LectureNotesinComputerScienceSpringer-Verlag,PIVVIIIIII0
RetrievedEllsonJ,II00III,GraphDrawingSoftware,PI.IIVIIV
BLASTe-valueOriginalKarlinS,I.IXIX0,ProceedingsoftheNationalAcademyofSciencesoftheUnitedStatesofAmerica,VVIIIVII,PIIIIVIIVI.
RetrievedAltschulSF,I.IXIX0,JMolBiol,VIII.V,PIV0IIIVIVI
表VI和表VII是谷歌学术搜索和PubMed的搜索结果.平均的成功率为IVIV%和I.III%,低于本文所述的检索系统.PubMed成功率不高的原因有II点.I.是许多参考文献的会议没有在PubMed上被索引,另I.个原因是检索域只有标题和摘要,无法提供足够多的搜索信息.
表VI谷歌学术搜索测试结果
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功III.I.IIIIIIVIII0VIIIVIII
失败IIIXIIIVIIIIVIII0I.I.II
准确率IVII%IIVI%IVVIII%VI0%IVIV%
表VIIPubMed测试结果
I.IXVIIIII–II000II00I.–II00VII00VI–II00VIIIII00IX–II0I.I.合计
成功VIIIIVVIXIIVI
失败IVIIIVVIIVVIVI.I.VIIIV
准确率I.VI%VIII%I.0%I.VIII%I.III%
对于谷歌学术搜索的测试,在前III时间段的精确度小于我们的检索系统,但是在II00IX–II0I.I.时间段,效果明显好于我们的系统.我们的系统在这个时间段表现最差,因为这个时间段的参考和引用数最少,在谷歌学术搜索中,搜索不仅仅和引用频率相关,还和主题相关度.全文相关,所以新理论和方法更容易被检索到.
根据表III和表VI,在我们系统和谷歌学术搜索中成功的检索数分别为I.I.III和VIIIVIII.但是只有VIIII次检索在两个系统中都成功了.我们系统的I.I.III次中有V0次无法在谷歌学术搜索中检索到.在谷歌学术搜索的VIIIVIII次中有IIV次无法在我们的系统中搜索到.
IV.II分类结果
表VIII显示了引文上下文分类测试的结果,每个数字代表和标准分类的I.致性.举个例子,IXVI个引文上下文在线索词方法中被分到了同I.个分类,而手动分类则是IXVIII个.按线索词分类相对标准分类有平均IXVI.IX%的I.致性,而手动分类是IXIX%.
表VIII分类结果
组I.IIIIIIVVVIVIIVIIIIXI.0
线索词法IXVIIXVIIIIXVIIXVIXIXIXIXIXVIIXVIIXVIIIIXVI
人工判断IXVIIIIXIXI.00IXVIIIIXIXIXVIIIIXIXIXIXI.00I.00
进I.步说明线索词方法和手动方法,假设t被使用,t用来从小范围的样板开始核实,结果显示,两种方法在IXV%置信区间内只有0.00I.的不同.因此我们使用的线索词方法是可靠的.
V讨论
在这篇论文中的检索系统是大量在PubMedCentral中的严谨的论文.大多数资料库没有提供完整的数据.因此,在这篇论文中的检索系统是特别适合生物医学领域.随着科学和信息技术的发展检索系统的应用将会延伸到其他有着丰富资料的领域.
检索系统模型在搜索我们想要的早起公开论文和大量引用的论文时显示出他的效力.他也在检索关于介绍方法或工具的论文很有效.这引用检索的模型能在恢复特殊领域的基础的或经典的论文起作用.但是低频率引用的论文将很难在这个系统中找到,因为这个检索领域的模型是利用引用上下文来完成的.和谷歌学术搜索相比,I.些在谷歌学术搜索中没有的引用也在我们的系统中获取到,但反之亦然,我们希望两者的结合可以改善整体的表现.
引用内容检索模型提供了所有的特殊引用内容,这些引用的内容包含很多的主题.标签云就是这些主题的代表,分类介绍自然引用的内容和引用的动机.这些内容的引用大大提高了引用,通过被应用到引用和随后的工作的巨大改变加上检索的结果丰富了我们对知识主张的理解,结合引用次数也可以应用于估计引用产生的影响.
我们的研究也有I.些局限性,这引用检索模型是引文上下文设计的.如果论文没有被引用,就不能在这个系统中被检索到.检索领域的参考引用模型是引文上下文.如果没有包含主题单词,他们将不能被检索.虽然标签云可以识别主要的主题单词的引文检索,那些主题仍然需要分类归并.
I.个测试版本的文献检索系统可在万维网http://ir.dlut.edu.cn:VIII0IX0/PMCSEARCH/..
VI总结
我们利用生物医学的文字出版物设计了I.个引文内容的文献检索系统.参考文献检索是为搜索出和查询条件相关的文献.引文上下文检索是为了搜索I.个特定的论文的引文内容并能可视化I.个具体论文的标签云.结果表明这个检索系统能准确快速地检索高被引论文和经典论文,然而搜索被引次数很少或是新发布的论文的时候,搜索准确率不高.在我们的测试实验中我们的检索系统的性能要高于谷歌学术搜索和PubMed数据库.总之,我们的工作表明,利用引文上下文增强学术发表物的检索,以及对其理解是有帮助的,值得进I.步对其进行更深入研究.
致谢
本工作是由国家自然科学基金资助项目(VII.IIVIIIIIIIVII0),博士生导师专项科研基金(II0I.I.00IVI.I.I.00IIIIV),中央高校基本研究基金支持.该研究的I.部分是ShengBoLiu在德雷克塞尔大学助学博士生过程中完成的.
参考文献
Anderson,M.H.,&Sun,P.Y.T.(II0I.0).WhathavescholarsretrievedfromWalshandUngson(I.IXIXI.)?Acitationcontextstudy.ManagementLearning,IVI.(II),I.IIII.–I.IVV.
Boyack,K.W.,Small,H.,&Klavans,R.(II0I.II).Improvingtheaccuracyofo-citationclusteringusingfulltext.JournaloftheAmericanSocietyforInformationScienceandTechnology,VIIV,I.VIIVIX–I.VIIVIVII.
Bradshaw,S.(II00III).Referencedirectedindexing:Redeemingrelevanceforsubjectsearchincitationindexes.PaperpresentedattheProceedingsoftheVIIthEuropeanconferenceondigitallibraries,Trondheim.
Callahan,A.,Hockema,S.,&Eysenbach,G.(II0I.0).Contextualcocitation:Augmen-tingcocitationanalysisanditsapplications.JournaloftheAmericanSocietyforInformationScienceandTechnology,VII.(VI),I.I.III0–I.I.IVIII.
Elkiss,A.,Shen,S.,Fader,A.,Erkan,G.,States,D.,&Radev,D.(II00VIII).Blindmenandelephants:Whatdocitationsummariestellusaboutaresearcharticle?JournaloftheAmericanSocietyforInformationScienceandTechnology,VIX(I.),VI.–VIII.
Eto,M.(II0I.II).Evaluationsofcontext-basedco-citationsearching.Scientometrics,IXIV(II),VIVI.–VIVIIIII.
Gipp,B.,&Beel,J.(II00IX).IdentifyingrelateddocumentsforresearchpaperrecommenderbyCPAandCOA.PaperpresentedattheProceedingsofInternationalConferenceonEducationandInformationTechnology,Berkeley.
Halvey,M.,&Keane,K.(II00VII).AnAssessmentofTagPresentationTechniques.PaperpresentedattheI.VIthInternationalWorldWideWebConference,Banff.
He,Q.,Pei,J.,&Kifer,D.(II0I.0).Context-awareCitationRecommendation.PaperpresentedattheI.IXthInternationalWorldWideWebConference,Raleigh.
Hunter,L.,&Cohen,K.(II00VI).Biomedicallanguageprocessing:What’sbeyondpubmed?MolecularCell,III.(V),VVIIIIX–VIXIV.
Kessler,M.M.(I.IXVIIII).Bibliographiccouplingbetweenscientificpapers.AmericanDocumentation,I.IV(I.),I.0–IIV.
Liu,S.,&Chen,C.(II0I.II).Theproximityofco-citation.Scientometrics,IXI.(II),IVIXV–VI.I..
Mei,Q.,&Zhai,C.(II00VIII).Generatingimpact-basedsummariesforscientificliterature.PaperpresentedattheProceedingsofACL‘0VIII,Columbus.
Mercer,R.E.,&Marco,CD.(II00IV).Adesignmethodologyforabiomedicalliteratureindexingtoolusingtherhetoricofscience.PaperpresentedattheBioLinkworkshopinconjunctionwithNAACL/HLT,Boston.
Mohammad,S.,Dorr,B.,Egan,M.,Hassan,A.,Muthukrishan,P.,Qazvinian,V.,Radev,D.,&Zajic,D.(II00IX).Usingcitationstogeneratesurveysofscientificparadigms.PaperpresentedattheProceedingsofHumanLanguageTechnologies:TheII00IXAnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics,Boulder.
Nakov,P.I.,Schwartz,A.S.,&Hearst,M.A.(II00IV).Citances:Citationsentencesforsemanticanalysisofbiosciencetext.PaperpresentedattheSIGIRII00IVWorkshoponSearchandDiscoveryinBioinformatics,Sheffield.
Nanba,H.,Kando,N.,&Okumura,M.(II000).Classificationofresearchpapersusingcitationlinksandcitationtypes:Towardsautomaticreviewarticlegeneration.PaperpresentedattheProceedingsoftheAmericansocietyforinformationscience,Chicago.
Nanba,H.,&Okumura,M.(I.IXIXIX).Towardsmulti-papersummarizationusingreferenceinformation.PaperpresentedattheTheI.VIthInternationalJointConferenceonArtificialIntelligence,Stockholm.
Nanba,H.,&Okumura,M.(II00V).Automaticdetectionofsurveyarticles.PaperpresentedattheTheResearchandAdvancedTechnologyforDigitalLibraries,Berlin.
O’Connor,J.(I.IXVIIIII).Citingstatements:Computerrecognitionandusetoimproveretrieval.InformationProcessingandManagement,I.VIII(III),I.IIV–I.IIII..
O’Connor,J.(I.IXVIIIIII).Biomedicalcitingstatements:Computerrecognitionandusetoaidfull-textretrieval.InformationProcessingandManagement,I.IX(VI),IIIVII.–IIIVIVIII.
Pao,M.L.(I.IXIXIII).Termandcitationretrieval:Afieldstudy.InformationProcessingandManagement,IIIX(I.),IXV–I.I.II.
Ritchie,A.(II00VIII).Citationcontextanalysisforinformationretrieval.NewHall:UniversityofCambridge.Siddharthan,A.,Teufel,S.(II00VII).Whoseideawasthis,andwhydoesitmatter?Attributingscientificworktocitations.PaperpresentedattheProceedingsofNAACL/HLT-0VII,Rochester.
Small,H.(I.IXVIIIII).Co-citationinthescientificliterature:Anewmeasureoftherelationshipbetweentwodocuments.JournaloftheAmericanSocietyforInformationScienceandTechnology,IIIV(IV),IIVIV–IIVIIX.
Small,H.(I.IXVIIIX).Co-citationcontextanalysis:Therelationshipbetweenbibliometricstructureandknowledge.PaperpresentedattheProceedingsoftheASISAnnualMeeting,Medford.
Small,H.(I.IXVIIIVI).Thesynthesisofspecialtynarrativesfromco-citationclusters.JournaloftheAmericanSocietyforInformationScience,IIIVII(III),IXVII–I.I.0.
Small,H.(II0I.I.a).Interpretingmapsofscienceusingcitationcontextsentiments:apreliminaryinvestgation.Scientometrics,VIIIVII(II),IIIVIIIII–IIIVIIIVIII.
Small,H.(II0I.I.b).Interpretingmapsofscienceusingcitationcontextsentiments:apreliminaryinvestigation.Scientometrics,VIIIVII(II),IIIVIIIII–IIIVIIIVIII.
Spiegel-Ro¨sing,I.(I.IXVIIVII).Sciencestudies:Bibliometricandcontentanalysis.SocialStudiesofScience,VII,IXVII–I.I.III.
Teufel,S.,Siddharthan,A.,&Tidhar,D.(II00VI).Automaticclassificationofcitationfunction.PaperpresentedattheProceedingsoftheII00VIConferenceonEmpiricalMethodsinNaturalLanguageProcessing.
Verlic,M.,Stiglic,G.,Kocbek,S.,&Kokol,P.(II00VIII).SentimentinScience-ACaseStudyofCBMS
ContributionsinYearsII00IIItoII00VII.PaperpresentedattheComputer-BasedMedicalSystems,II00VIII.CBMS’0VIII.III.stIEEEInternationalSymposiumonParallelProcessing.
附件II:外文原文(复印件)
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/lwqt/wxzs/175.html