Lucene水利元数据检索

系统设计与开发
卫星遥感技术的迅猛发展极大地丰富了卫星遥感数据源,利用卫星遥感数据
可以实现对水文信息的大范围,全天候连续不断的动态监测。水利部高度重视卫
星遥感数据在水利行业的应用,提出建设水利遥感中心来提高遥感数据的共享与
利用率。遥感影像中的信息记录在元数据中,可惜目前对元数据的检索却多沿用
传统数据库检索技术,存在着查准率查全率低、对用户要求高、难以满足多样化
查询等缺陷,因此本文构建一个查询系统来解决这些问题。 HM000045
水利元数据查询系统是向信息使用者提供水利元数据信息查询,检索,定位
以及定制的服务平台,通过交换体系获得信息资源,向信息使用者提供信息访问
服务。该系统需要提供高质量的检索性能,这不仅需要构建一个结构优异的索引
格式,还需要提供多样性的查询以及具备良好体验的结果显示界面。
针对系统的检索需求,本文提出了将当前十分流行的开源项目 Lucene 嵌入到
检索系统中,整个系统围绕 Lucene 核心来运行的解决方案,实现了对 XML 格式
的水利元数据建立倒排索引以及海量数据的检索功能。搜索结果默认显示相关度
靠前的匹配结果以及高亮的关键词,此外还提供了相关搜索以及相关路径的提示
信息以及查询结果的可设置选项。
关键词:Lucene;XML;倒排索引;元数据;检索
1.2  研究内容与技术路线
本文主要研究如何对水利元数据建立索引,以及对用户的输入关键词进行查询处理。
在此过程解决的关键问题是如何在处理器和内存资源有限的情况下实现对海量数据的
快速查询。通过建立倒排索引实现从单词到文件的映射,从而实现快速查询,并能够根
据 Lucene 评分机制将优先级高的文档置顶。系统灵活并且支持索引参数的配置,并具
备良好的可移植性。
Dojo+JavaScript+CSS
Lucene
倒排索引 查询分析器
Hibernate Oracle Spring Struts
用户界面
水利元数据检索系统
图 1.2 技术路线框架图
如图 1.2 所示,系统主要以 Lucene 为核心,提供对水利元数据的创建索引过程以及
询功能,通过分析当前 XML 索引技术 [5] ,在创建元数据索引过程中采用 Lucene 设计
的索引格式,利用 IK Analyzer 分词器 [6] 对中文内容分词,在检索过程中利用其评分机制
输出相关从高到低的结果。系统后台通过 SSH 框架负责管理:Spring 负责管理业务逻辑,
Hibernate 负责与数据库 Oracle 交互,Struts 负责管理用户请求的流程;前台通过使用
Dojo 框架技术,将界面组件化,内容显示部分并没有直接嵌入 HTML 页面,而是写成
单独的 js 文件,有利于结构和行为的分离。系统框架为以后开发和进一步研究搜索引擎
技术提供了原型系统。试验表明,所设计的全文检索系统的稳定性和可移植性都达到了
很好的效果,为今后进一步开发和改进提供了一种 Web 搜索应用系统平台。
1.3  论文结构安排
本文结构如下:  查看完整请+Q:351916072获取
1.第 1 章主要介绍研究的背景、研究内容与技术路线以及本文的结构。
2.第 2 章主要介绍相关技术,首先是搜索引擎概述,接着介绍 Lucene、元数据、
Dojo、XML 等技术,最后介绍 SSH 框架以及整合过程。
3.第 3 章为需求分析,主要介绍了业务需求、功能需求、数据需求、性能需求。
4.第 4 章为概要设计,主要介绍了系统结构设计以及数据库设计。
5.第 5 章为详细设计与实现,主要介绍系统的配置、系统结构分析、系统功能详细
设计。
6.第 6 章为案例研究,主要介绍了系统的开发环境、分词效果以及搜索效果。
7.第 7 章总结本文取得的成果和遇到的问题,提出进一步改进和提高的方向。
第 第2 章  搜索引擎及相关技术研究
本章主要介绍搜索引擎相关知识以及本系统所用到的相关技术。通过对搜索引擎的
整体介绍,了解其基本的构成以及工作原理,对本系统的研究有着相当大的指引作用。
相关技术部分都是本系统采用的,在上一章节的技术框架图中有所展现。
2.1  搜索引擎概述
搜索引擎是指根据一定策略、运用特定计算机程序从互联网上搜集信息,在对信息
进行组织和处理后,为用户提供检索服务,将用户检索相关信息展示给用户的系统
[7] 。
1 2.1.1  搜索引擎分类
目前搜索引擎大致可分为如下几类:
1. 全文索引 全文索引是名副其实的搜索引擎,它们从外界收集信息,建立起数据
库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
2. 目录索引 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,
只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,
不依靠关键字进行查询。
3. 元搜索引擎 元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并
将结果返回给用户。
4. 垂直搜索引擎 垂直搜索引擎不同于普通的搜索引擎,垂直搜索专注于特定的搜
索领域和搜索需求,在其特定的搜索领域有更好的用户体验,垂直搜索需要的硬件成本
低、用户需求特定、查询的方式多样。
目 录 查看完整请+Q:351916072获取
摘 要  I I
ABSTRACT   II
第 1 1  章 绪论   1 1
1.1 研究背景  1
1.2 研究内容与技术路线  2
1.3 论文结构安排  3
第 2 2  章 搜索引擎及相关技术研究 4 4
2.1 搜索引擎概述  4
2.1.1 搜索引擎分类 4
2.1.2 搜索引擎的工作原理 4
2.1.3 搜索引擎的工作过程 5
2.2 Lucene 技术  5
2.2.1 Lucene 简介  5
2.2.2 Lucene 运行机制  6
2.2.3 Lucene 索引机制  6
2.2.4 Lucene 倒排索引格式  7
2.2.5 Lucene 分析器  9
2.2.6 Lucene 的多样性查询  9
2.3 元数据 10
2.3.1 元数据的概念  10
2.3.2 元数据产生背景  11
2.3.3 元数据在系统中的应用  11
2.4 DOJO 框架技术 12
2.4.1 JavaScript 技术 12
2.4.2 Dojo 技术 12
2.5 XML 技术  13
2.5.1 XML 概念  13
2.5.2 XML 结构  13
2.5.3 XML 定义方式  13
2.5.4 XML 文档解析方式  14
2.5.5 XPath 技术  15
2.6 Struts1 框架、spring 框架和 Hibernate 框架整合技术 15
2.6.1 struts1 技术  15
2.6.2 Hibernate 技术  16
2.6.3 Spring 技术 18
2.6.4 Struts1、Hibernate、Spring 整合 18
第 3 3  章 需求分析  19
3.1 业务需求 19
3.2 功能需求 20
3.3 数据需求 20
3.3.2 数据流图  20
3.3.2 数据字典  23
3.4 性能需求 23
第 4 4  章 概要设计  24
4.1 系统结构设计 24
4.2 数据库设计 24
4.2.1 概念结构设计  24
4.2.2 数据表设计  25
第 5 5  章 详细设计与实现  27
5.1 系统配置 27
5.2 系统结构分析 29
5.3 系统功能详细设计 33
5.3.1 索引的管理  33
5.3.2 目录查询  34
5.3.3 简单查询  36
第 6 6  章 案例研究  41
6.1 系统开发环境 41
6.2 分词器研究与分词效果 41
6.2.1 分词器关键类  41
6.2.2 IK 核心分词算法 41
6.2.3 分词效果  42
6.3 搜索效果 43
第 7 7  章 总结与展望  45
7.1 总结 45
7.2 展望 46
参考文献   47
致 谢  49 查看完整请+Q:351916072获取

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/3273.html

好棒文