图像描述生成技术的图像搜索研究与实现(附件)
在现有的“以图搜图”方法中,主要采用“图片-图片”的单模态搜索,通过提取图像特征对近似图像进行查找,但无法根据图像的内容对相似类别的图像进行查找。为此本次提出了基于图像描述生成技术的图像搜索技术,实现了“图片-文本-图片”的跨膜态搜索。图像描述生成技术指的是将图像转换为自然语言描述的计算机技术,本文使用了典型“编码器-解码器”结构并引入“注意力”机制,详细描述数据处理过程,并通过BLEU评价体系对模型的准确度做出评判,通过比较总结模型在不同情况下的适用性和优劣性。并最终实现图形化界面编程,实现载入模型进行标注的基本功能,并能够实现按照图像内容进行“以图搜图”的功能。
目录
摘要 2
关键词 2
Abstract 2
Key words 3
引言 3
1. 选题背景 3
2. 国内外研究状况 5
3. 开发平台及应用技术 9
3.1 Python 9
3.2 TensorFlow 9
3.3 Tkinter 9
4. 模型 9
4.1 模型细节 10
4.2 “编码器”卷积神经网络 14
4.3 “解码器”循环神经网络 14
4.4 “注意力”机制的引入 15
5. 实现过程 17
5.1 硬件环境 17
5.2 参数配置 17
5.3 数据集 17
5.4 集束搜索Beam Search 算法 18
5.5 BLEU评价体系 18
5.6 实验结果 19
5.7 结果分析 20
6. 系统操作 21
6.1 系统分析 21
6.2 操作流程 22
6.2.1 打开图片 22
6.2.2 载入模型,生成图像标注 22
6.2.3 保存标注结果 23
6.2.4 搜索图片 24
6.3 关键技术 24
7. 总结与展望 25
基于图像描述生成技术的图像搜索研究与实现
引言
*好棒文|www.hbsrm.com +Q: ^351916072#
/> 引言
选题背景
基于大数据的不断发展和机器翻译领域准确度的不断提高,图像描述生成技术开始不断吸引计算机研究人员的目光,目前大多数的模型都是基于“编码器解码器”思想的框架,一般来说编码器采用的是目前在图像分类领域颇有建树的卷积神经网络,提取卷积神经网络的全连接层或卷积层的特征作为图像编码,而解码器一般采用在自然语言处理领域效果良好的循环神经网络,此处一般使用的是LSTM(长短期记忆网络),用于递归图像的特征,循环生成一段符合语法规范的自然语言语句来对输入的图像特征进行描述。
目前,大多数在图像描述生成领域取得良好结果,甚至是优于人工标注结果的模型都是通过将目前在计算机视觉方向和自然语言处理领域结果优秀的模型结合起来,通过将图像描述生成任务划分成多个子任务,由多个模型组合完成任务需求。在本次的毕业设计模型当中,主要参考了“编码器解码器”模型[1],模型对数据的处理流程如图1所示,将对图像的编码和解码任务结合在一个数据流当中进行处理,使用图片I输入,通过神经网络训练,最大化概率P(S|I),S={S1, S2, },每个St表示在t时间循环神经网络所生成的单词描述。在过去的数年当中,CNN卷积神经网络在将图像编码为特定长度的向量表示领域有着良好的效果,这样的一个向量表示可以用于一系列的计算机视觉方向的处理,这就是本次毕业设计所采用的模型框架。
在本次的毕业设计当中,引入“注意力”机制的模型,相较于上一个模型仅在“解码”的初始阶段将“编码”后的图像特征作为输入,之后就不在使用图像的特征,而仅仅使用上一个时间生成的单词进行循环迭代,“注意力”机制模型[2]在每个时间段生成描述单词时都需要将图片作为特征进行输入。在人类对图像进行理解并自我组织语言进行描述时,在不同的时间段对图像的不同部分的注意并不是均匀分布的,而基本模型是从整体上对图片进行描述。然而在本次的毕业设计当中,受限于机器的运算性能、数据集的规模以及运算时间的限制,“注意力”机制的模型相较于普通模型的提高不是非常明显。
本次的毕业设计贡献在于,使用python语言下的Tensorflow框架,采用了两种不同的图像描述生成技术,通过BLEU评价标准比较模型的结果,并与标准结果进行对比,通过结论分析两种模型在不同情况下的应用场景。通过GUI图像化界面设计使模型的标准过程可视化,并且可以通过对于图像的标注在基本图片库当中实现“以图搜图”的功能。
国内外研究状况
在图像描述生成技术领域目前采用较多依然是“编码器解码器”结构的模型,在2015ni按的MSCOCO数据标注大赛上由Vinyals博士所带领的团队所使用的模型[3],通过卷积神经网络对图像进行编码,然后经过循环神经网络对图像特征进行解码,神经网络的训练目标函数为最大化目标描述的自然估计。在图像的编码阶段,可以使用Inception V3D等在图像分类、图像分割等领域已经被证明具有卓越效果的现有模型对图像进行特征提取。在特征的解码阶段,首先输入编码后的图像特征,其后按照时间段依此输入每个单词的词向量表达。在词向量表示方面,使用onehot向量对单词进行表示,经过词嵌入模型处理,表示为定长维度的向量进行处理。为了进一步提高模型的准确率,可以引入word2vec或glove等经过大规模语料库训练的词嵌入模型。
在2015IEEE期刊上Hao Fang博士提出了“多实例学习”[2]的概念来解决问题,如图1所示,通过训练视觉检测器,从而对图像进行粗分类,提取一副图像中所包含的单词,实际上是对图像首先进行物体的分割,然后通过对单词进行排列组合,选择最后的结果作为图像的标注。
受最近注意力机制在机器翻译当中对准确率提高的结果启发,2016年kelvin博士提出了“注意力”机制[3]在图像描述生成领域的作用,结合图像的卷积特征和空间注意力机制,将上下文信息输入到“编码器解码器”框架中,与上文提到的Vinyals博士的基本框架不同,图像特征使用较低层的卷积特征作为图像特征,在对图像进行特征编码的同时保留了图像基本的结构空间信息,在“解码器”阶段能够动态根据需求选择图像不同的空间特征进行输入。
由于在传统的模型框架当中,在“解码器”生成语言描述时,只是通过对训练集的图像标注进行语言学习,缺少语义信息对语句生成的指导,在训练集数量较小或者是训练时间不足的情况下,语义并不能很好匹配自然语言的语法规则,因此2015年,Xu Jia博士[4]提出了对LSTM循环神经网络的改进,效果如图4所示,Xu博士在文中供引入了三种不同的语义信息,分别比较了他们对于“解码”过程的“帮助”作用,使得标注结果在语法上更加准确,在对不同物体关系得组合上更符合自然语言得规律。
目录
摘要 2
关键词 2
Abstract 2
Key words 3
引言 3
1. 选题背景 3
2. 国内外研究状况 5
3. 开发平台及应用技术 9
3.1 Python 9
3.2 TensorFlow 9
3.3 Tkinter 9
4. 模型 9
4.1 模型细节 10
4.2 “编码器”卷积神经网络 14
4.3 “解码器”循环神经网络 14
4.4 “注意力”机制的引入 15
5. 实现过程 17
5.1 硬件环境 17
5.2 参数配置 17
5.3 数据集 17
5.4 集束搜索Beam Search 算法 18
5.5 BLEU评价体系 18
5.6 实验结果 19
5.7 结果分析 20
6. 系统操作 21
6.1 系统分析 21
6.2 操作流程 22
6.2.1 打开图片 22
6.2.2 载入模型,生成图像标注 22
6.2.3 保存标注结果 23
6.2.4 搜索图片 24
6.3 关键技术 24
7. 总结与展望 25
基于图像描述生成技术的图像搜索研究与实现
引言
*好棒文|www.hbsrm.com +Q: ^351916072#
/> 引言
选题背景
基于大数据的不断发展和机器翻译领域准确度的不断提高,图像描述生成技术开始不断吸引计算机研究人员的目光,目前大多数的模型都是基于“编码器解码器”思想的框架,一般来说编码器采用的是目前在图像分类领域颇有建树的卷积神经网络,提取卷积神经网络的全连接层或卷积层的特征作为图像编码,而解码器一般采用在自然语言处理领域效果良好的循环神经网络,此处一般使用的是LSTM(长短期记忆网络),用于递归图像的特征,循环生成一段符合语法规范的自然语言语句来对输入的图像特征进行描述。
目前,大多数在图像描述生成领域取得良好结果,甚至是优于人工标注结果的模型都是通过将目前在计算机视觉方向和自然语言处理领域结果优秀的模型结合起来,通过将图像描述生成任务划分成多个子任务,由多个模型组合完成任务需求。在本次的毕业设计模型当中,主要参考了“编码器解码器”模型[1],模型对数据的处理流程如图1所示,将对图像的编码和解码任务结合在一个数据流当中进行处理,使用图片I输入,通过神经网络训练,最大化概率P(S|I),S={S1, S2, },每个St表示在t时间循环神经网络所生成的单词描述。在过去的数年当中,CNN卷积神经网络在将图像编码为特定长度的向量表示领域有着良好的效果,这样的一个向量表示可以用于一系列的计算机视觉方向的处理,这就是本次毕业设计所采用的模型框架。
在本次的毕业设计当中,引入“注意力”机制的模型,相较于上一个模型仅在“解码”的初始阶段将“编码”后的图像特征作为输入,之后就不在使用图像的特征,而仅仅使用上一个时间生成的单词进行循环迭代,“注意力”机制模型[2]在每个时间段生成描述单词时都需要将图片作为特征进行输入。在人类对图像进行理解并自我组织语言进行描述时,在不同的时间段对图像的不同部分的注意并不是均匀分布的,而基本模型是从整体上对图片进行描述。然而在本次的毕业设计当中,受限于机器的运算性能、数据集的规模以及运算时间的限制,“注意力”机制的模型相较于普通模型的提高不是非常明显。
本次的毕业设计贡献在于,使用python语言下的Tensorflow框架,采用了两种不同的图像描述生成技术,通过BLEU评价标准比较模型的结果,并与标准结果进行对比,通过结论分析两种模型在不同情况下的应用场景。通过GUI图像化界面设计使模型的标准过程可视化,并且可以通过对于图像的标注在基本图片库当中实现“以图搜图”的功能。
国内外研究状况
在图像描述生成技术领域目前采用较多依然是“编码器解码器”结构的模型,在2015ni按的MSCOCO数据标注大赛上由Vinyals博士所带领的团队所使用的模型[3],通过卷积神经网络对图像进行编码,然后经过循环神经网络对图像特征进行解码,神经网络的训练目标函数为最大化目标描述的自然估计。在图像的编码阶段,可以使用Inception V3D等在图像分类、图像分割等领域已经被证明具有卓越效果的现有模型对图像进行特征提取。在特征的解码阶段,首先输入编码后的图像特征,其后按照时间段依此输入每个单词的词向量表达。在词向量表示方面,使用onehot向量对单词进行表示,经过词嵌入模型处理,表示为定长维度的向量进行处理。为了进一步提高模型的准确率,可以引入word2vec或glove等经过大规模语料库训练的词嵌入模型。
在2015IEEE期刊上Hao Fang博士提出了“多实例学习”[2]的概念来解决问题,如图1所示,通过训练视觉检测器,从而对图像进行粗分类,提取一副图像中所包含的单词,实际上是对图像首先进行物体的分割,然后通过对单词进行排列组合,选择最后的结果作为图像的标注。
受最近注意力机制在机器翻译当中对准确率提高的结果启发,2016年kelvin博士提出了“注意力”机制[3]在图像描述生成领域的作用,结合图像的卷积特征和空间注意力机制,将上下文信息输入到“编码器解码器”框架中,与上文提到的Vinyals博士的基本框架不同,图像特征使用较低层的卷积特征作为图像特征,在对图像进行特征编码的同时保留了图像基本的结构空间信息,在“解码器”阶段能够动态根据需求选择图像不同的空间特征进行输入。
由于在传统的模型框架当中,在“解码器”生成语言描述时,只是通过对训练集的图像标注进行语言学习,缺少语义信息对语句生成的指导,在训练集数量较小或者是训练时间不足的情况下,语义并不能很好匹配自然语言的语法规则,因此2015年,Xu Jia博士[4]提出了对LSTM循环神经网络的改进,效果如图4所示,Xu博士在文中供引入了三种不同的语义信息,分别比较了他们对于“解码”过程的“帮助”作用,使得标注结果在语法上更加准确,在对不同物体关系得组合上更符合自然语言得规律。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/wljs/413.html