个性化搜索自适应排序研究与系统实现(附件)
摘要: 3摘要:在如今的信息化社会中,整个互联网上的信息量如同大海一样浩瀚,人们也因此越来越多的利用网络对自己所需要的信息进行检索。但是,与此同时人们却面临着一个关键的问题---如何在如此海量的信息与内容中准确、迅速、高效地找到自己所需要信息。由此关于提高互联网搜索引擎搜索效率、准度以及个性化的一些技术应运而生。本文首先对搜索引擎的原理、组成等方面进行了研究,在此基础上运用元搜索引擎技术调用了多个搜索引擎的结果,并对所得结果的网页内容进行分词处理,再根据其内容和搜索关键字之间的相关度进行排序,得到最终的搜索结果。同时在得到该搜索结果的基础上对Ranking SVM算法的应用进行了初步的研究,根据用户的点击情况和网页的特征对搜索结果进行了重排序。最后利用了JSP技术设计了简易的搜索引擎页面输出结果。
目录
引言
引言
搜索引擎作为一种基于关键字查询的信息检索工具,从出现到现在已有三十余年时间[1]。尤其再最近十年的时间里,搜索引擎随着因特网的普及而得到迅速发展,使用户极大地享受了互联网查找信息的便利。未来的十年里,搜索引擎必将向着个性化和智能化的方向发展[2]。搜索引擎的个性化就是不同类型的用户群搜索相同的内容将得到不同搜索结果从而满足用户的不同需求特点;而智能化则是指搜索引擎能够进行自我学习,自动地适应用户的查询需求并将用户进行智能分类,从而为搜索引擎的个性化提供依据。
近年来元搜索引擎出现并快速发展,它致力于解决人们在搜索时无法得到所需信息的困扰,不至于使用户陷入“信息过载”和“资源迷向”的困境[3]。当查询相同的内容时,由于搜索引擎的不同会得到不同的结果,普通的搜索引擎通常不能全面地找到用户的所需信息,用户经常需要通过使用多个不同的搜索来得到自己所需要的结果,整个搜索过程仍然十分不便。在这种状况下,元搜索引擎应运而生,它集合了多个搜索引擎检索结果并且能对此做出整合处理,有效地解决了独立搜索引擎信息覆盖率不足和查准率不高的问题,为搜索引擎的发展开辟了一个新的方向。
同时,对搜索结果的排序很大程度影响了用户对搜索结果浏览时的选择,因此关于搜索结果排序的研究也备受瞩目。如今的搜索引擎已经不能单单基于相关度对结果进行排序,而更多的希望能够根据用户的个性和特点排序搜索结果。为了实现这种功能,
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
便将机器学习应用到了信息检索中,因此排序学习(Learning to Rank)作为一个新的研究方向因运而生。
1.选题背景
1.1 问题的提出
随着网络科技的日益发展,搜索引擎在人们的生活中占据了一个不可替代的重要位置,已经发展成为日常生活中不可或缺的互联网应用。根据中国互联网络信息中心在2015年2月3日发布的第35次调查报告显示[4],截至2014年12 月,我国搜索引擎用户规模达5.22亿,使用率为80.5%,用户规模较2013 年增长3257万人,增长率为6.7%;手机搜索用户数达4.29亿,使用率达77.1%,用户规模较2013年增长6411万人,增长率为17.6%。搜索引擎不管在PC端还是手机端都成为了成为了网民除了即时通信外使用率最高的互联网应用。近几年中,中国网民的规模持续扩大,而搜索引擎作为基础应用其户用规模也持续增加;同时,搜索引擎的功能逐渐全面,发展也逐渐面向多元化,吸引着广大网民的积极使用。
然而当人们通过互联网享受到快捷、便利的搜索时,仍存在着许多问题,尤其是在搜索的过程中搜索引擎并不能返回理想、全面、期望的搜索结果。因此我们本次研究的关键问题就在于如何通过一些算法提高搜索结果的准度与广度,并增加搜索引擎的个性化特点,从而增强搜索引擎的性能,提升用户的满意度。
1.2 国内外研究现状
1990年,Archie作为世界上第一个搜索引擎在加拿大麦吉尔大学(University of McGill)由计算机学院的师生成功开发[5]。它虽然不是传统意义上的搜索引擎,但是在当时万维网还没有出现的情况下,用户可以通过它使用文件名搜索匿名FTP上的文件并下载,完成了与搜索引擎类似的工作,是搜索引擎界公认的鼻祖。从此之后,国外搜索引擎技术得到了迅猛的发展,搜索引擎也根据检索方式的不同分为了独立性搜索引擎和元搜索引擎。
1.2.1独立型搜索引擎
大多数的这类搜索引擎是基于Robot的搜索引擎。平时,它的Robot程序能够从网络中搜集信息并且建立属于自己的索引数据库,当需要搜索时,它会首先检索它的索引数据库,接着它会得到数据库中的内容,最后根据内容搜索到相应的信息或连接站点并提供给用户。这类搜索引擎国内外的代表有Google和Baidu。
1.2.2元搜索引擎
与独立型搜索引擎相反,元搜索引擎首先得到用户的搜索需求,之后将其交给多个独立型搜索引擎,从而获得多个搜索引擎的搜索结果,之后进行集中处理,最后将处理后的搜索结果返回给用户。本次研究也采用了元搜索引擎的概念,以下是对元搜索引擎的介绍:
从1995年第一个元搜索引擎Metacrawler问世以来,国内外如今已经出现了超过一百个的元搜索引擎,其中以Mamma、MetaCrawler、SavvySearch等最为出色。相较国外,国内的、发展则缓慢许多,如今只有万纬、360综合搜索、搜魅网等相较之下算是比较出色的中文元搜索引擎。目前以下几个关键之处是元搜索引擎的主要研究方向:
(1)成员引擎的调度策略
主要有4种调度算法:①普通法,用户自由选择成员搜索引擎,一旦选择搜索引擎不会根据各个成员搜索引擎的特点来进行改变,只是简单地将用户的查询请求发送给自己的每个成员,如:万纬搜索引擎;②定性法,根据自己规定的一套评测标准得到每个成员搜索引擎的评分,以此来预测它们的搜索质量。评测标准包括gGLoss方法、DWISE方法、ALIWEB方法、NetSerf方法等。③定量法,通过计算一些数值从而体现每个成员搜索引擎的评分,能更直观、简明的来说明每个成元搜索引擎的质量,如估计有用文件的数量或估计最相似文件的相似度[6];④基于学习的方法,这是一种关于机器学习的方法,搜索引擎根据以往检索的积累的经验来判定各个搜索引擎对新查询的表现好坏。其中可以从多个方面得到检索的经验,如静态学习方法MRDD方法、动态学习方法SavvySarch和混合学习方法ProFusion方法。
(2)搜索结果的合成
元搜索引擎从多个成员搜索引擎得到结果后,由于不同搜索引擎采用了各不相同的排序技术,因此没有一个统一的标准去重新排列得到的搜索结果,如何将与用户查询相关度高的结果放在前面成为了一大难题。如今大部分的元搜索引擎会根据局部相似度或全局相似度的计算,将每个成员搜索引擎返回的文档降序排列,其中代表性的结果合成算法有:①由J.P.Callana针对搜索引擎返回结果的排序、相关性分值的不同,给出的间隔排列合成法、分值合成法、加权分值法[7];②Krisch提出的通过修改下层搜索引擎以获得更多信息并进行合成处理的方法[8];③元搜索引擎系统MetaCrawler引入概念可信度来决定文档与用户请求相关程度的方法。
1.2.3 排序学习
目录
引言
引言
搜索引擎作为一种基于关键字查询的信息检索工具,从出现到现在已有三十余年时间[1]。尤其再最近十年的时间里,搜索引擎随着因特网的普及而得到迅速发展,使用户极大地享受了互联网查找信息的便利。未来的十年里,搜索引擎必将向着个性化和智能化的方向发展[2]。搜索引擎的个性化就是不同类型的用户群搜索相同的内容将得到不同搜索结果从而满足用户的不同需求特点;而智能化则是指搜索引擎能够进行自我学习,自动地适应用户的查询需求并将用户进行智能分类,从而为搜索引擎的个性化提供依据。
近年来元搜索引擎出现并快速发展,它致力于解决人们在搜索时无法得到所需信息的困扰,不至于使用户陷入“信息过载”和“资源迷向”的困境[3]。当查询相同的内容时,由于搜索引擎的不同会得到不同的结果,普通的搜索引擎通常不能全面地找到用户的所需信息,用户经常需要通过使用多个不同的搜索来得到自己所需要的结果,整个搜索过程仍然十分不便。在这种状况下,元搜索引擎应运而生,它集合了多个搜索引擎检索结果并且能对此做出整合处理,有效地解决了独立搜索引擎信息覆盖率不足和查准率不高的问题,为搜索引擎的发展开辟了一个新的方向。
同时,对搜索结果的排序很大程度影响了用户对搜索结果浏览时的选择,因此关于搜索结果排序的研究也备受瞩目。如今的搜索引擎已经不能单单基于相关度对结果进行排序,而更多的希望能够根据用户的个性和特点排序搜索结果。为了实现这种功能,
*好棒文|www.hbsrm.com +Q: 3_5_1_9_1_6_0_7_2
便将机器学习应用到了信息检索中,因此排序学习(Learning to Rank)作为一个新的研究方向因运而生。
1.选题背景
1.1 问题的提出
随着网络科技的日益发展,搜索引擎在人们的生活中占据了一个不可替代的重要位置,已经发展成为日常生活中不可或缺的互联网应用。根据中国互联网络信息中心在2015年2月3日发布的第35次调查报告显示[4],截至2014年12 月,我国搜索引擎用户规模达5.22亿,使用率为80.5%,用户规模较2013 年增长3257万人,增长率为6.7%;手机搜索用户数达4.29亿,使用率达77.1%,用户规模较2013年增长6411万人,增长率为17.6%。搜索引擎不管在PC端还是手机端都成为了成为了网民除了即时通信外使用率最高的互联网应用。近几年中,中国网民的规模持续扩大,而搜索引擎作为基础应用其户用规模也持续增加;同时,搜索引擎的功能逐渐全面,发展也逐渐面向多元化,吸引着广大网民的积极使用。
然而当人们通过互联网享受到快捷、便利的搜索时,仍存在着许多问题,尤其是在搜索的过程中搜索引擎并不能返回理想、全面、期望的搜索结果。因此我们本次研究的关键问题就在于如何通过一些算法提高搜索结果的准度与广度,并增加搜索引擎的个性化特点,从而增强搜索引擎的性能,提升用户的满意度。
1.2 国内外研究现状
1990年,Archie作为世界上第一个搜索引擎在加拿大麦吉尔大学(University of McGill)由计算机学院的师生成功开发[5]。它虽然不是传统意义上的搜索引擎,但是在当时万维网还没有出现的情况下,用户可以通过它使用文件名搜索匿名FTP上的文件并下载,完成了与搜索引擎类似的工作,是搜索引擎界公认的鼻祖。从此之后,国外搜索引擎技术得到了迅猛的发展,搜索引擎也根据检索方式的不同分为了独立性搜索引擎和元搜索引擎。
1.2.1独立型搜索引擎
大多数的这类搜索引擎是基于Robot的搜索引擎。平时,它的Robot程序能够从网络中搜集信息并且建立属于自己的索引数据库,当需要搜索时,它会首先检索它的索引数据库,接着它会得到数据库中的内容,最后根据内容搜索到相应的信息或连接站点并提供给用户。这类搜索引擎国内外的代表有Google和Baidu。
1.2.2元搜索引擎
与独立型搜索引擎相反,元搜索引擎首先得到用户的搜索需求,之后将其交给多个独立型搜索引擎,从而获得多个搜索引擎的搜索结果,之后进行集中处理,最后将处理后的搜索结果返回给用户。本次研究也采用了元搜索引擎的概念,以下是对元搜索引擎的介绍:
从1995年第一个元搜索引擎Metacrawler问世以来,国内外如今已经出现了超过一百个的元搜索引擎,其中以Mamma、MetaCrawler、SavvySearch等最为出色。相较国外,国内的、发展则缓慢许多,如今只有万纬、360综合搜索、搜魅网等相较之下算是比较出色的中文元搜索引擎。目前以下几个关键之处是元搜索引擎的主要研究方向:
(1)成员引擎的调度策略
主要有4种调度算法:①普通法,用户自由选择成员搜索引擎,一旦选择搜索引擎不会根据各个成员搜索引擎的特点来进行改变,只是简单地将用户的查询请求发送给自己的每个成员,如:万纬搜索引擎;②定性法,根据自己规定的一套评测标准得到每个成员搜索引擎的评分,以此来预测它们的搜索质量。评测标准包括gGLoss方法、DWISE方法、ALIWEB方法、NetSerf方法等。③定量法,通过计算一些数值从而体现每个成员搜索引擎的评分,能更直观、简明的来说明每个成元搜索引擎的质量,如估计有用文件的数量或估计最相似文件的相似度[6];④基于学习的方法,这是一种关于机器学习的方法,搜索引擎根据以往检索的积累的经验来判定各个搜索引擎对新查询的表现好坏。其中可以从多个方面得到检索的经验,如静态学习方法MRDD方法、动态学习方法SavvySarch和混合学习方法ProFusion方法。
(2)搜索结果的合成
元搜索引擎从多个成员搜索引擎得到结果后,由于不同搜索引擎采用了各不相同的排序技术,因此没有一个统一的标准去重新排列得到的搜索结果,如何将与用户查询相关度高的结果放在前面成为了一大难题。如今大部分的元搜索引擎会根据局部相似度或全局相似度的计算,将每个成员搜索引擎返回的文档降序排列,其中代表性的结果合成算法有:①由J.P.Callana针对搜索引擎返回结果的排序、相关性分值的不同,给出的间隔排列合成法、分值合成法、加权分值法[7];②Krisch提出的通过修改下层搜索引擎以获得更多信息并进行合成处理的方法[8];③元搜索引擎系统MetaCrawler引入概念可信度来决定文档与用户请求相关程度的方法。
1.2.3 排序学习
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/724.html