语义关联最大化的跨模态哈希检索算法研究(源码)
在信息技术飞速进步的时代,各种图像获取设备也随之普及,大量的图像数据被收集。如何管理与检索大量的图像数据是值得研究的问题。本文针对跨模态的哈希检索背景进行简述,对国内外现状做出综述,主要研究相关的三种算法典型相关分析(CCA)、正交投影学习语义关联最大化哈希(SCM-Orth)和非正交投影连续学习语义关联最大化哈希(SCM-Seq)[1]。文中对上述算法进行介绍与实现,在多个数据集上进行实验进行算法对比,在此基础上进行算法改进与实现,并给出改进算法的思路与详细推导。
目录
摘要 1
关键词 1
1.绪论 1
1.1 研究意义 1
1.2 国内外研究现状 2
1.3 研究目的与内容 4
1.4 论文组织结构 4
2 算法研究预备知识 4
2.1 拉格朗日乘子法 4
2.2 矩阵的迹的性质及求导法则 5
3 算法阐述实现 5
3.1 典型相关分析(CCA) 5
3.2 语义最大化哈希(SCM)方法标记与问题定义 7
3.3 正交投影学习的语义关联最大化(SCMOrth)[1] 8
3.3.1 模型构建 8
3.3.2 算法简述 8
3.4 非正交投影连续学习的语义关联最大化(SCMSeq)[1] 9
4 基于CCA和SCM的算法改进 10
4.1 算法改进思路 10
4.2 SCMOrth算法修改为SCMOrthdCCA的详细步骤与推导 11
4.3 SCMSeq算法改进为SCMSeqdCCA简述 13
5 训练算法实现流程 13
5.1 典型相关分析(CCA) 13
5.2 正交投影学习的语义关联最大化哈希(SCMOrth) 13
5.3 非正交投影连续学习的语义关联最大化哈希(SCMSeq) 14
5.4 SCMOrth改进算法SCMOrthdCCA 15
5.5 SCMSeq改进算法SCMSeqdCCA 15
6 实验与分 *好棒文|www.hbsrm.com +Q: ^351916072#
析对比 16
6.1 数据集来源 16
6.1.1 Wiki Dataset数据集 16
6.1.2 NUSWIDE数据集 16
6.2 数据集选取 16
6.3 算法测试评价标准 17
6.4 测试流程 17
6.5 CCA,SCMOrth,SCMSeq间的对比与分析 17
6.6 SCM算法改进后的实验对比与分析 18
总结 20
致谢 20
参考文献 20
语义关联最大化的跨模态哈希检索算法研究
引言
引言 随着信息社会迅猛发展,多媒体数据也爆炸式涌入网络。在整个互联网的发展中,我们可以发现如今互联网为人类所呈现的不仅仅是一开始的简单文本信息,还有相当多的其它媒体形式,例如图像、视频、音频等。随着21世纪物理技术的进步,拥有大规模和容量的存储介质得到全面地普及,同时在各个领域也被广泛应用。在理论层面上的编码压缩技术也使得多种媒体形式的数据在网络上占有越来越大的比重。对大量多媒体数据的检索具有重大意义。
1.绪论
1.1 研究意义
因为信息技术的迅猛发展和互联网的普及,特别是随着脸书、微博、微信等社交网站与社交软件的流行,图像数据每天都按惊人的速度大量被创造。由相关资料显示,脸书的用户每月上传多于10亿张图片,而已经注册的用户超过了10亿;国内的新浪每天的微博更新条数也超过了一亿。除此之外各种图像获取设备普及也使大量的图像数据被收集。如何管理与检索大量的图像数据是值得研究的问题。图像检索在计算机视觉和模式识别中是研究热点,然而传统图像检索算法所需的计算量很大。近年,基于哈希的图像检索技术得到广泛关注。
越来越多的多模态数据可用于许多应用,特别是在多媒体领域。如何利用这种多模态数据进行跨视角相似性搜索已经成为一个具有挑战性但有趣的研究问题。
国内外研究现状
哈希检索按照对象的类型分为单模态检索和多模态检索。
随着多媒体的发展图像领域的哈希检索得到越来越多的关注,图像数据的巨幅增长和图像特征高维特点淘汰了属性索引结构,基于哈希的图像检索方法即HABIR将高维特征投影到较低维的汉明空间,使用汉明距离之间的比较作为图像相似度的衡量标准,从而在大规模图像中进行检索得到结果。HABIR对于图像检索的效率提高有了非常显著的帮助,适应了现代大规模图像检索的需求。哈希图像检索结合深度学习的方法,填补了哈希检索降低图像检索准确性的缺陷。有学者提出一种基于无监督哈希算法保存离散结构的大规模数据代码空间使检索精度得到了提升[2]。
哈希检索效率高并且占用存储空间小,所以被广泛应用。最初的图像哈希检索方法是Piotr Indyk等首先提出的局部敏感哈希即LSH[3,4]。此算法的思想是将数据随机映射,哈希法简单易行并且效率十分高,然而这不是数据驱动型的方法,所以精度并不能达到要求。而超比特局部敏感哈希即SBLSH[5]将角度当做衡量相似性的标准,分组正交化随机的投影向量,从而通过汉明距离的方差比较来证明比局部敏感哈希法优秀,然而这与局部敏感哈希法一样不是驱动算法。后来核化局部敏感哈希即KLSH[6]又对LSH进行了优化,考虑数据本身的结构,但又使得计算难度大幅提升。Weiss等人提出新的想法,在哈希法中又加入了关于图论的理论,得到了谱哈希算法即SH[7],此算法把哈希学习过程当做图像的分割过程,将哈希函数改进。他们所提出的所发是真正意义上的数据驱动型算法,在提升哈希检索精确度上具有一定的意义。普哈希算法的改进是锚点图哈希即AGH[8],构建二分图模型,构建近似近邻矩阵,增加减速效率和精确程度。大规模图像具有某些结构性,所以数据驱动型的哈希法对于图像检索的效率提高有很大的意义。对于大规模图像检索,有学者提出了一种新的方法,称为可扩展的图形哈希特征变换即SGH[9]。
考虑到特征所占用的空间和检索所需要的计算量,大规模图像数据的最佳应对方案就是“近似最近邻”检索。在大规模图像检索中,如果使用中小规模的最近邻检索,会引起“维数灾难”,树形索引结构检索效率甚至会低于线性扫描[10],我们必须要有巨大的存储空间来存放图像提取的特征,并且大量的计算会耗费大量的时间,浪费人力物力。因此大规模图像检索可以通过对“近似最近邻”样本的检索来解决空间与时间浪费的问题。“近似最近邻”样本指的是,样本与查询样本之间的距离是“最近邻”样本与查询样本之间距离的c倍,c>1称为近似因子[11]。
目录
摘要 1
关键词 1
1.绪论 1
1.1 研究意义 1
1.2 国内外研究现状 2
1.3 研究目的与内容 4
1.4 论文组织结构 4
2 算法研究预备知识 4
2.1 拉格朗日乘子法 4
2.2 矩阵的迹的性质及求导法则 5
3 算法阐述实现 5
3.1 典型相关分析(CCA) 5
3.2 语义最大化哈希(SCM)方法标记与问题定义 7
3.3 正交投影学习的语义关联最大化(SCMOrth)[1] 8
3.3.1 模型构建 8
3.3.2 算法简述 8
3.4 非正交投影连续学习的语义关联最大化(SCMSeq)[1] 9
4 基于CCA和SCM的算法改进 10
4.1 算法改进思路 10
4.2 SCMOrth算法修改为SCMOrthdCCA的详细步骤与推导 11
4.3 SCMSeq算法改进为SCMSeqdCCA简述 13
5 训练算法实现流程 13
5.1 典型相关分析(CCA) 13
5.2 正交投影学习的语义关联最大化哈希(SCMOrth) 13
5.3 非正交投影连续学习的语义关联最大化哈希(SCMSeq) 14
5.4 SCMOrth改进算法SCMOrthdCCA 15
5.5 SCMSeq改进算法SCMSeqdCCA 15
6 实验与分 *好棒文|www.hbsrm.com +Q: ^351916072#
析对比 16
6.1 数据集来源 16
6.1.1 Wiki Dataset数据集 16
6.1.2 NUSWIDE数据集 16
6.2 数据集选取 16
6.3 算法测试评价标准 17
6.4 测试流程 17
6.5 CCA,SCMOrth,SCMSeq间的对比与分析 17
6.6 SCM算法改进后的实验对比与分析 18
总结 20
致谢 20
参考文献 20
语义关联最大化的跨模态哈希检索算法研究
引言
引言 随着信息社会迅猛发展,多媒体数据也爆炸式涌入网络。在整个互联网的发展中,我们可以发现如今互联网为人类所呈现的不仅仅是一开始的简单文本信息,还有相当多的其它媒体形式,例如图像、视频、音频等。随着21世纪物理技术的进步,拥有大规模和容量的存储介质得到全面地普及,同时在各个领域也被广泛应用。在理论层面上的编码压缩技术也使得多种媒体形式的数据在网络上占有越来越大的比重。对大量多媒体数据的检索具有重大意义。
1.绪论
1.1 研究意义
因为信息技术的迅猛发展和互联网的普及,特别是随着脸书、微博、微信等社交网站与社交软件的流行,图像数据每天都按惊人的速度大量被创造。由相关资料显示,脸书的用户每月上传多于10亿张图片,而已经注册的用户超过了10亿;国内的新浪每天的微博更新条数也超过了一亿。除此之外各种图像获取设备普及也使大量的图像数据被收集。如何管理与检索大量的图像数据是值得研究的问题。图像检索在计算机视觉和模式识别中是研究热点,然而传统图像检索算法所需的计算量很大。近年,基于哈希的图像检索技术得到广泛关注。
越来越多的多模态数据可用于许多应用,特别是在多媒体领域。如何利用这种多模态数据进行跨视角相似性搜索已经成为一个具有挑战性但有趣的研究问题。
国内外研究现状
哈希检索按照对象的类型分为单模态检索和多模态检索。
随着多媒体的发展图像领域的哈希检索得到越来越多的关注,图像数据的巨幅增长和图像特征高维特点淘汰了属性索引结构,基于哈希的图像检索方法即HABIR将高维特征投影到较低维的汉明空间,使用汉明距离之间的比较作为图像相似度的衡量标准,从而在大规模图像中进行检索得到结果。HABIR对于图像检索的效率提高有了非常显著的帮助,适应了现代大规模图像检索的需求。哈希图像检索结合深度学习的方法,填补了哈希检索降低图像检索准确性的缺陷。有学者提出一种基于无监督哈希算法保存离散结构的大规模数据代码空间使检索精度得到了提升[2]。
哈希检索效率高并且占用存储空间小,所以被广泛应用。最初的图像哈希检索方法是Piotr Indyk等首先提出的局部敏感哈希即LSH[3,4]。此算法的思想是将数据随机映射,哈希法简单易行并且效率十分高,然而这不是数据驱动型的方法,所以精度并不能达到要求。而超比特局部敏感哈希即SBLSH[5]将角度当做衡量相似性的标准,分组正交化随机的投影向量,从而通过汉明距离的方差比较来证明比局部敏感哈希法优秀,然而这与局部敏感哈希法一样不是驱动算法。后来核化局部敏感哈希即KLSH[6]又对LSH进行了优化,考虑数据本身的结构,但又使得计算难度大幅提升。Weiss等人提出新的想法,在哈希法中又加入了关于图论的理论,得到了谱哈希算法即SH[7],此算法把哈希学习过程当做图像的分割过程,将哈希函数改进。他们所提出的所发是真正意义上的数据驱动型算法,在提升哈希检索精确度上具有一定的意义。普哈希算法的改进是锚点图哈希即AGH[8],构建二分图模型,构建近似近邻矩阵,增加减速效率和精确程度。大规模图像具有某些结构性,所以数据驱动型的哈希法对于图像检索的效率提高有很大的意义。对于大规模图像检索,有学者提出了一种新的方法,称为可扩展的图形哈希特征变换即SGH[9]。
考虑到特征所占用的空间和检索所需要的计算量,大规模图像数据的最佳应对方案就是“近似最近邻”检索。在大规模图像检索中,如果使用中小规模的最近邻检索,会引起“维数灾难”,树形索引结构检索效率甚至会低于线性扫描[10],我们必须要有巨大的存储空间来存放图像提取的特征,并且大量的计算会耗费大量的时间,浪费人力物力。因此大规模图像检索可以通过对“近似最近邻”样本的检索来解决空间与时间浪费的问题。“近似最近邻”样本指的是,样本与查询样本之间的距离是“最近邻”样本与查询样本之间距离的c倍,c>1称为近似因子[11]。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1772.html