图哈希的专利图像检索系统(源码)

由于哈希算法可以用于针对大规模数据库的有效最近邻搜索,正变得越来越受欢迎。然而,学习能够产生良好搜索性能的简练代码仍然是一个挑战。此外,现实世界中的数据属于低维流形,在很多情况下,我们通过这些数据获取有意义的最近邻。本文实现了一种基于图哈希的算法,自动发掘图像信息中固有的领域结构,以学习适当的简短哈希码。为了更好地展现图哈希算法的优越性,本文计算了哈希算法在不同特征数据集中的检索准确率,并将该算法与局部敏感哈希算法进行了对比实验。最后,本文将该算法应用到专利图片检索领域,实现基于图像内容的检索形式。
目录
摘要 1
关键词 1
Abstract. 1
Key words 1
引言 1
1 研究现状 2
1.1 哈希算法国内外研究进展 2
1.1.1 非监督哈希算法 2
1.1.2 监督哈希算法 2
1.1.3 半监督哈希算法 2
1.2 图像检索系统国内外研究进展 3
2 预备知识 3
2.1 Gabor特征 3
2.1.1 特征概述 3
2.1.2 实现过程 4
2.2 Hog特征 4
2.2.1 特征概述 4
2.2.2 实现过程 4
2.3 Gist特征 5
2.3.1 特征概述 5
2.3.2 实现过程 5
2.4 局部敏感哈希算法 6
2.5 数据集 6
3 图哈希算法 7
3.1 公式 7
3.2 锚点图 8
3.3 特征函数泛化 9
3.4 分层哈希 10
3.5 算法实现 13
3.5.1哈希检索的函数实现 13
3.5.2获取样本哈希码矩阵的函数实现 14
3.5.3获取待查询图片哈希码的函数实现 14
3.5.4压缩哈希码函数的实现 15
3.5.5计算哈希码汉明距离的函数实现 15
3.5.6计算欧式距离的 *好棒文|www.hbsrm.com +Q: ¥351916072$ 
函数实现 15
4 实验 16
4.1 实验特征样本 16
4.1.1 各特征样例图 16
4.1.2 PCA降维 17
4.1.3 k折交叉验证法 17
4.2 特征对比与选择 18
4.3 算法对比与选择 18
4.4 样本数量对比实验 19
5 系统设计 20
5.1 系统结构 20
5.2 系统模块及相关技术说明 20
5.2.1 浏览器模块 20
5.2.2 服务器模块 20
5.2.3 图像检索模块 20
5.2.4 数据存储模块 20
5.3 系统运行展示 20
6 总结与展望 22
致谢 22
参考文献 23
基于图哈希的专利图片检索系统
引言
引言
随着互联网的发展,科技的进步,各式各样专利的大量涌现,海量的专利图片信息亟待处理,设计一款基于内容的专利图像检索系统,可以帮助可能涉及专利侵权的利益相关者快速方便地进行专利的侵权检索,一方面为企业的研发人员或专利申请者提供准确、全面的侵权检索结果,避免新产品侵权或申请专利失败;另一方面快速、精确的专利审查方式能够为专利审查职员提高工作效率,使得专利审查工作更具有时效性和准确率。
最近邻(NN)搜索是计算机视觉、机器学习、数据挖掘和信息检索等各大领域中同时存在的基本问题。搜索一个目标的最近邻居需要扫描数据库中的所有n个项,其具有的时间复杂度是。对于n很大的情况,例如,数百万,穷举的线性搜索的代价是非常昂贵的。因此,在过去已经提出了许多用于快速近似最近邻(ANN)搜索的技术。解决这个问题的一个典型范例是基于树,例如kdtree(Friedman等人,1977)[1],其查询时间复杂度为。然而,对于高维数据,大多数基于树的方法,其性能通常显著地退化到彻底的线性搜索。
为了克服这个问题,越来越多的研究人员开始关注和引入具有很好降维特性的哈希算法。哈希方法通过映射的方式,将高维数据空间转换到低维汉明空间,并在转换过程中保持初始空间的向量相似性。一个哈希序列表示一副图像,使用汉明距离刻画哈希码之间的相似程度,即图像的相似度。
1 研究现状
1.1 哈希算法国内外研究进展
哈希算法主要应对近似最近邻问题,可以有效地实现数据降维,因此,研究人员对基于哈希的算法的重视程度也越来越高。通过哈希函数的映射方式,哈希算法可以将任意长度的高维特征向量归一化成指定长度的二进制哈希码,每个图像或数据库用一个二进制序列来表示,图像的相似程度通过计算出来的多个二进制哈希码之间的距离表征。基于哈希算法的图像检索算法大大降低了检索时间,同时,对高维向量通过降维表示也能有较好的适应性,从图像库中检索到与查询目标图像相似的图像过程中可以节省大量时间。以是否对图片进行标记为标准,目前发现的基于哈希的图像检索算法可以分为以下三类:
1.1.1 非监督哈希算法
非监督哈希算法是指只利用图像固有的视觉特征来直接构造哈希函数,不需要对图像进行人工标记。因此,非监督哈希算法对图片样本数据库没有太高要求并且检索速度快,导致其在大规模图像检索中具有很大优势。LSH[2](Locality Sensitive Hashing)就是其中的代表,除此之外还有SH[3](Spectral Hashing),KLSH[4](Kernelized Locality Sensitive Hashing)等都属于非监督哈希算法。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1787.html

好棒文