web搜索引擎的设计与研究(附件)
摘要:随着互联网的快速发展,面向用户的信息资源越来越丰富,但是同时也导致用户难以获得其最需要的信息。Web搜索引擎可以极大地弥补现有的网络信息获取不能精确定位的缺陷。目前,Web搜索引擎已得到了广泛的应用并以涉及到多个领域的理论和技术。为此,本文将以Lucene为基础架构,对Web搜索引擎进行研究和分析,讨论小型简单的基于Lucene架构的Web搜索引擎。本文设计了Web搜索引擎的基础架构,并且实现了网络爬虫、数据检索和索引、浏览器客户端和Android客户端等功能特性。经过测试,该Web搜索引擎性能稳定,反应灵敏。
目录
摘要...............3 关键词..3
Abstract........................................................................................................................3
Key words .3
引言.........................................................................................................................3
1 选题背景 4
1.1 问题的提出 4
1.2 国内外研究状况 4
1.3 本文研究内容可行性分析 5
1.4 软件开发相关介绍和应用技术 5
1.4.1 Java概述 5
1.4.2 Aliyun概述 5
1.4.3 Linux概述 5
1.4.4 Tomcat概述 5
1.4.5 Eclipse概述 5
1.4.6 MySQL 数据库概述 6
2 Web搜索引擎的设计与研究 6
2.1 典型Web搜索引擎分析 6
2.1.1 典型Web搜索引擎体系结构 6
2.1.2 典型Web搜索引擎的工作原理 7
2.2 基于Lucene的Web搜索引擎
*好棒文|www.hbsrm.com +Q: ¥351916072¥
设计 8
2.2.1 Lucene的简要介绍 8
2.2.2 Lucene全文检索的实现机制 8
2.2.3 基于Lucene的Web搜索引擎结构设计 9
3 基于Lucene的Web搜索引擎的开发 11
3.1 网页搜集系统 11
3.1.1 网络爬虫 11
3.1.2 网络爬虫程序结构设计 12
3.1.3 网络爬虫数据库结构 14
3.1.4 网络爬虫网页抓取存储 15
3.2 Lucene的Web搜索引擎的索引和检索系统 15
3.2.1 词典库 15
3.2.2 Lucene的Web搜索引擎的索引和检索过程 16
3.2.3 搜索结果返回系统 16
3.3 Lucene的Web搜索引擎实现的关键技术 16
3.3.1 Lucene实现索引的核心算法 16
3.3.2 Lucene实现检索的核心算法 17
3.3.3 查询内容分词算法........................................................................................... 18
3.4 Lucene的Web搜索引擎查询系统 20
4 Web搜索引擎真实环境的架设,上线与运行................................................ 21
4.1 服务器环境架设 21
4.2 浏览器客户端的上线与运行 22
4.3 Android客户端的上线与运行 24
5 总结和展望 25
致谢 26
参考文献 27
Web搜索引擎的设计与研究
引言
引言
选题背景
问题的提出
在搜索速度、索引规模、查全率等方面,现代化搜索引擎的性能已经有了明显的改进。然而,伴随着信息时代的迅速发展,互联网包含的内容信息正在以惊人的速度增长。如何从不断增长的互联网信息中提取出用户最需求的信息成为了所有搜索引擎研究人员必须面对的问题。
从Web搜索引擎出现开始,伴随着时间的推移,互联网的信息量以几何的速率在增长。为了使自己的Web搜索引擎覆盖更多的信息,各大公司不断地扩大自己的数据库,这样使得维护数据库的工作变得越来越复杂。同时Web搜索引擎的各项成本也在增加。
互联网的不断普及,使得越来越多的人被卷入互联网时代的漩涡。Web搜索引擎成为人们接触互联网信息最直接的窗口。然而,由于用户的基数庞大,不同阶层的用户对互联网信息的需求是不同的,于是一个更具个性化的Web搜索引擎的研究迫在眉睫。
现在的搜索引擎大多数都是商业化的,各大搜索引擎公司都采用自己的私有排序算法来对搜索结果进行筛选。由于商业化的因素,公司为了获得利润,可能会根据网站提供费用的多少来对搜索结果进行排序,这样就造成了搜索结果的主观性[1]。
国内外研究状况
在2000年以前,在国内,几乎没有搜索引擎。2000年以后,经过很长一段时间的缓慢发展,搜索引擎在国内开始出现并且被人们接收。其后,国内的搜索引擎快速地发展,百度、搜狗、搜搜和360等搜索引擎相继出现。然而,即使是现在,如何在浩瀚的Web信息中寻找到最符合用户需求的信息,依然是一个严峻的研究。系统或者程序本身往往是很难判别出用户真正需求的是什么样的信息。所以从根本上说,系统或者程序得到的输入也是一个笼统的模糊的概念。虽然如此,用户还是希望可以通过最简短的输入内容就可以得到其所需求的Web信息资料。
对于搜索引擎的比较研究,国内研究方面主要体现在对搜索引擎的数据库内容和基本检索性能进行比较。国外的研究方面大多数从检索的方式、响应时间的量级以及搜索结果等方面进行比较和评价。然而,互联网也脱离不了人类社会学的魔咒,阻碍Web搜索引擎发展的最大因素确实非技术的。这种现象在国内尤其的严重。搜索引擎再也不是以服务用户为宗旨,在这样的情况下,国内的搜索引擎技术陷入了萎靡。国外的搜索引擎技术进步很快。然而,对于国人来说,我们使用的是中文,那些英语的索引与检索方式很显然的在中文这一块就是一个很大难题,如何实现中文的更好的支持才应该是国内搜索引擎公司需要多考虑的事情[2]。
本文研究内容可行性分析
主要研究内容为:采用客户端+服务器端模式。利用网络爬虫实现网页的抓取,分析模块与功能。利用Lucene实现抓取网页的全文索引,检索。利用Linux、Tomcat和Java实现用户接口,搜索结果展示的功能。
技术可行性:熟悉Java语言、Eclipse开发工具、Tomcat服务器的配置和使用、Linux操作系统和阿里云服务器的搭建、配置和使用等相关技术。
目录
摘要...............3 关键词..3
Abstract........................................................................................................................3
Key words .3
引言.........................................................................................................................3
1 选题背景 4
1.1 问题的提出 4
1.2 国内外研究状况 4
1.3 本文研究内容可行性分析 5
1.4 软件开发相关介绍和应用技术 5
1.4.1 Java概述 5
1.4.2 Aliyun概述 5
1.4.3 Linux概述 5
1.4.4 Tomcat概述 5
1.4.5 Eclipse概述 5
1.4.6 MySQL 数据库概述 6
2 Web搜索引擎的设计与研究 6
2.1 典型Web搜索引擎分析 6
2.1.1 典型Web搜索引擎体系结构 6
2.1.2 典型Web搜索引擎的工作原理 7
2.2 基于Lucene的Web搜索引擎
*好棒文|www.hbsrm.com +Q: ¥351916072¥
设计 8
2.2.1 Lucene的简要介绍 8
2.2.2 Lucene全文检索的实现机制 8
2.2.3 基于Lucene的Web搜索引擎结构设计 9
3 基于Lucene的Web搜索引擎的开发 11
3.1 网页搜集系统 11
3.1.1 网络爬虫 11
3.1.2 网络爬虫程序结构设计 12
3.1.3 网络爬虫数据库结构 14
3.1.4 网络爬虫网页抓取存储 15
3.2 Lucene的Web搜索引擎的索引和检索系统 15
3.2.1 词典库 15
3.2.2 Lucene的Web搜索引擎的索引和检索过程 16
3.2.3 搜索结果返回系统 16
3.3 Lucene的Web搜索引擎实现的关键技术 16
3.3.1 Lucene实现索引的核心算法 16
3.3.2 Lucene实现检索的核心算法 17
3.3.3 查询内容分词算法........................................................................................... 18
3.4 Lucene的Web搜索引擎查询系统 20
4 Web搜索引擎真实环境的架设,上线与运行................................................ 21
4.1 服务器环境架设 21
4.2 浏览器客户端的上线与运行 22
4.3 Android客户端的上线与运行 24
5 总结和展望 25
致谢 26
参考文献 27
Web搜索引擎的设计与研究
引言
引言
选题背景
问题的提出
在搜索速度、索引规模、查全率等方面,现代化搜索引擎的性能已经有了明显的改进。然而,伴随着信息时代的迅速发展,互联网包含的内容信息正在以惊人的速度增长。如何从不断增长的互联网信息中提取出用户最需求的信息成为了所有搜索引擎研究人员必须面对的问题。
从Web搜索引擎出现开始,伴随着时间的推移,互联网的信息量以几何的速率在增长。为了使自己的Web搜索引擎覆盖更多的信息,各大公司不断地扩大自己的数据库,这样使得维护数据库的工作变得越来越复杂。同时Web搜索引擎的各项成本也在增加。
互联网的不断普及,使得越来越多的人被卷入互联网时代的漩涡。Web搜索引擎成为人们接触互联网信息最直接的窗口。然而,由于用户的基数庞大,不同阶层的用户对互联网信息的需求是不同的,于是一个更具个性化的Web搜索引擎的研究迫在眉睫。
现在的搜索引擎大多数都是商业化的,各大搜索引擎公司都采用自己的私有排序算法来对搜索结果进行筛选。由于商业化的因素,公司为了获得利润,可能会根据网站提供费用的多少来对搜索结果进行排序,这样就造成了搜索结果的主观性[1]。
国内外研究状况
在2000年以前,在国内,几乎没有搜索引擎。2000年以后,经过很长一段时间的缓慢发展,搜索引擎在国内开始出现并且被人们接收。其后,国内的搜索引擎快速地发展,百度、搜狗、搜搜和360等搜索引擎相继出现。然而,即使是现在,如何在浩瀚的Web信息中寻找到最符合用户需求的信息,依然是一个严峻的研究。系统或者程序本身往往是很难判别出用户真正需求的是什么样的信息。所以从根本上说,系统或者程序得到的输入也是一个笼统的模糊的概念。虽然如此,用户还是希望可以通过最简短的输入内容就可以得到其所需求的Web信息资料。
对于搜索引擎的比较研究,国内研究方面主要体现在对搜索引擎的数据库内容和基本检索性能进行比较。国外的研究方面大多数从检索的方式、响应时间的量级以及搜索结果等方面进行比较和评价。然而,互联网也脱离不了人类社会学的魔咒,阻碍Web搜索引擎发展的最大因素确实非技术的。这种现象在国内尤其的严重。搜索引擎再也不是以服务用户为宗旨,在这样的情况下,国内的搜索引擎技术陷入了萎靡。国外的搜索引擎技术进步很快。然而,对于国人来说,我们使用的是中文,那些英语的索引与检索方式很显然的在中文这一块就是一个很大难题,如何实现中文的更好的支持才应该是国内搜索引擎公司需要多考虑的事情[2]。
本文研究内容可行性分析
主要研究内容为:采用客户端+服务器端模式。利用网络爬虫实现网页的抓取,分析模块与功能。利用Lucene实现抓取网页的全文索引,检索。利用Linux、Tomcat和Java实现用户接口,搜索结果展示的功能。
技术可行性:熟悉Java语言、Eclipse开发工具、Tomcat服务器的配置和使用、Linux操作系统和阿里云服务器的搭建、配置和使用等相关技术。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/679.html