lucene算法的搜索引擎【字数:7020】

搜索引擎是一个在网络上搜索信息并将信息进行加工发送给有需求用户的程序。本文对网络搜索引擎的理论、框架和数据结构进行了深入的研究和分析,并自行制作了一个简单的网站爬虫软件,实现了从互联网上下载网站保存在本地方便搜索引擎用来检索用户所需要的信息这一功能。本文使用了Java语言完成了一个简单的搜索引擎,索引部分使用搜索引擎Lucene的Java库实现。最后,利用JSP(JavaServer Posies)技术实现了搜索引擎的简单用户界面。
目 录
1.绪论 1
1.1 开发背景及意义 1
1.2 课题分析 1
1.2.1国内研究现状及分析 1
1.2.2国外研究现状及分析 2
1.3 发展趋势 2
1.4 系统设计目标 2
1.5搜索引擎对社会的影响 2
2.关键技术 3
2.1 开发环境 3
2.2 相关开发语言及工具介绍 3
2.2.1 MyEclipse开发平台简介 3
2.2.2 JSP技术简介 3
2.2.3 Tomcat服务器简介 3
2.3 数据库技术 3
2.3.1 MySQL数据库简介 3
2.3.2 数据模型 4
3.搜索系统的结构 5
3.1 搜索引擎系统概述 5
3.2搜索引擎的构成 5
3.2.1 信息搜集 5
3.2.2网页信息的预处理 5
3.2.3 用户查询子系统 6
4.搜索引擎的设计 7
4.1网页的文档结构 7
4.2网页链接结构 7
4.3 网络爬虫的设计 8
4.4数据库的设计 9
4.5预处理子系统的设计 9
4.5.1提取网页中有用的信息 9
4.5.2对信息进行分词 9
4.5.3为分词建立索引库 10
4.6 查询子系统的设计 10
4.6.1用户搜索界面设计 10
4.6.2 服务端设计 10
5.搜索引擎的实现 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
11
5.1 信息搜集子系统的实现 11
5.1.1 数据库的实现 11
5.1.2 网络爬虫的实现 11
5.2 预处理子系统的实现 13
5.2.1网络信息的提取 13
5.2.2建立索引库 13
5.3 查询子系统的实现 15
5.3.1查询界面的实现 15
5.3.2服务器端接口的实现 17
结论 18
参考文献 19
致 谢 20
1.绪论
1.1 开发背景及意义
近年来,凭借着搜索引擎本身它的强大的网络文字的抓取能力,搜索引擎在目前的这个阶段已经覆盖了大约20%。谷歌已经覆盖了大约60亿,百度已经达到10亿,他们已经形成了自己的生活方式(销售技术、竞争排名、广告投放)。众所周知,谷歌也成为了全球最大的互联网公司,同时呢,百度也不敢其后,也已经成为了中国的大型互联网公司。这也已经标志着搜索引擎的时代已经到来了,搜索引擎在如今社会获得了巨大的发展,搜索引擎也为全中国乃至全世界的人们带来了诸多便利。
另一方面,站点门户的搜索变得越来越流行。当一个搜索引擎变得越来越强大,它的内容必须非常丰富。用户希望找到他们需要的内容(例如我昨天刚看过的视频,但今天如果您没有在主页上显示,或者您想要查看此区域的相关内容,则需要搜索引擎的支持。
搜索引擎以百度为例。它们不仅仅是自然结果,而且还出现了各种结构化的演示结果。比如,搜索廖凡会当即提供用户百科全书、图片、电影、微博、消息等信息。。这些都是根据用户的每天行为习惯,搜索程度来给出用户的最佳搜索结果,每一个结果都能让其用户获得满意的结果,这说明许多的人员为此付出了辛勤的劳动。在电影中搜索两个单词,运用非常好的技术水平将人们想要获得的一系列的相关搜索结果全部显示在用户面前。最新的,包罗最热点的,用户赞美的,各类影片供用户选择本身。。搜索男子篮球世界杯,比赛时间表,直播入口,比赛报告,统计数据和游戏的其他方面都涵盖在这个小质量的显示。所有这些都超出了基本排名(仅按后端算法排序)策略。
1.2 课题分析
1.2.1国内研究现状及分析
我国搜索引擎一是将它的搜索性能与数据库的内容进行比较。二是通过某些搜索问题进行在线测试。在一句话中,作者比对了数据库的内容和布局、检索方式和特色、成果的表现、数据库的更新和扩大。YAhoo和Librarians的检索功效相对于较弱。Infoseek和Open Text供给更好的成果描写。国内作者的对比测试结果表明,对于相同的搜索公式,不同搜索引擎的交叉搜索结果并不多,搜索引擎的数量也大不相同。元搜索引擎检索的成果不一定比单个搜索引擎更好。一些人在互联网上测试过中文搜索引擎。与传统的CDROM数据库检索相比,互联网信息资源缺乏深度、质量和可靠性不稳定。搜索引擎查询和CDROM检索在用户服务中有各自的优缺点。国外一些著名的搜索引擎有其自身的优势,但它们是相辅相成、互不替代的。
1.2.2国外研究现状及分析
国外学者从检索,响应时间和准确性方面对一些搜索引擎进行了比较和评估。 Alta Vista具有强大的搜索功能,Lycos具有广泛的覆盖范围,而且Alta Vista真正支持单词检索。用户使用不一样的搜索引擎得到的搜索结果还会存在着一些差异。此外,即使是最全面的搜索引擎也只能找到网络上1/3的网页,没有一个搜索引擎可以搜索超过16%的在线资源。近年来,关于搜索引擎的报道很多,并且还有许多专门用于这种研究的参考书目,为用户提供了比较和评估互联网搜索工具的便利。
1.3 发展趋势
在现在及其未来的发展过程中,搜索引擎已经成为了人们生活网络的必须品,包括了所有使用互联网的用户所有想要到达的领域,比如看电影,新闻,超市等等搜索服务,因此,互联网成为了人们最常用的在线服务。
1.4 系统设计目标
近年来,互联网上的信息资源越来越多。互联网资源也为人们带来了许多的便利。同时,大量,无序和动态互联网信息也为用户带来了一些麻烦。大容量存储和科学信息检索是两个重要功能。互联网的发展实现了大量的信息存储。为了解决互联网信息大量国务无效的问题,搜索引擎系统应运而生。目前,搜索引擎技术也是人们所研究的一个重要的课题。对于大规模网络信息搜索,搜索引擎的结构设计已成为提高搜索效率的关键。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/526.html

好棒文