Exploring Visual Relationship for Image Captioning

xiaoxiao2022-06-11  32

原论文名称:Exploring Visual Relationship for Image Captioning

作者:Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei

论文地址


摘要

人们总是相信,对象之间的建模关系将有助于表示和最终描述图像。然而,没有现有技术支持从建模对象关系出发进行image caption生成。在本文中,介绍了一种新的设计---在基于注意力的编码器 - 解码器框架下探索图像描述中对象之间的连接。具体来说,我们提出了图卷积网络(GCN)和长短期记忆(称为GCN-LSTM)架构,novelly之处是它将语义和空间对象关系集成到图像编码器中。从技术上讲,基于图片中被检测对象之间的空间和语义连接构建graph。然后通过GCN利用图结构(graph structure)来改善在对象上提出的每个区域的表示。借助学习到的区域级特征,我们的GCN-LSTM充分利用基于LSTM的caption框架以及用于句子生成的注意机制。对COCO图像描述(image caption)数据集进行了大量实验,与现有最好技术方法相比,得到了优异的结果。更值得注意的是,GCN-LSTM在COCO测试集上将CIDEr-D性能从120.1%提高到128.7%。

介绍

深度神经网络的最新进展完美地证明了其在学习视觉模型时的高能力,特别是在识别方面。 这些成就为图像理解的最终目标迈出了更远的一步,即用完整的自然的句子自动描述图像内容或称为图像描述问题。 图像字幕的典型解决方案[7,34,37,39]受到机器翻译的启发,相当于将图像翻译成文本。 如图1(a)和(b)所示,通常利用卷积神经网络(CNN)或基于区域的CNN(R-CNN)来编码图像和并用递归神经网络(RNN)解码器w/ 或者 w/o注意力机制来生成句子,每个时间步一个单词。无论CNN加RNN图像字幕框架的这些不同版本如何,未充分研究的常见问题是如何利用视觉关系(visual relationship)来考虑对象之间的相互关联或交互是描述图像的自然基础。

Fig.1. Visual representations generated by image encoder in (a) CNN plus LSTM, (b) R-CNN plus LSTM, and (c) our GCN-LSTM for image captioning.

视觉关系(visual relationship)表征图像中检测对象之间的交互或相对位置。视觉关系的检测不仅涉及对象的定位和识别,还涉及对每对对象之间的交互(谓词)进行分类。通常,该关系可以表示为,例如或。在文献中,人们已经认识到,推理这种视觉关系对于视觉世界的更丰富的语义理解[19,23]至关重要。然而,物体可能具有各种尺度,可能在图像中的任意位置以及来自不同类别,这导致难以确定关系的类别。在本文中,我们利用对象之间固有关系的优势来全面地解释图像,并且新颖地探索了使用视觉连接(visual connection)来增强用于图像描述的图像编码器(image caption)。我们的基本设计是在语义和空间层面上建模关系,并将连接(connection)整合到图像编码器中以产生关系感知(relation-aware)区域级(region-level)表示。结果,当我们进入句子解码器时,我们赋予图像表示更多的信息。

通过巩固为图像描述建模视觉关系的思想,我们提出了一种新颖的图卷积网络和长短期记忆(GCN-LSTM)架构,如图1(c)所示。具体地,Faster R-CNN被首次用来提出一组凸图像区域。我们在检测区域上建立了带有有向边的语义图(semantic graph),其中顶点表示每个区域,边表示每对区域之间的关系(谓词),关系通过在Visual Genome上学习的语义关系检测器预测得到的[16]。类似地,还在区域上构建空间图(spatial graph),并且区域之间的边建模相对几何关系(relative geometrical relationship)。然后利用图卷积网络分别在结构化语义图和空间图中以视觉关系丰富区域表示。在此之后,将学习到的关于每种关系的关系感知(relation-aware)区域表示馈送到一个单独的带有注意力的LSTM解码器中以生成句子。在推理阶段,为了融合两个解码器的输出,我们在每个时间步对来自两个解码器的单词的预测得分分布进行线性平均,并且在下一步骤中将两个解码器中具有最高概率的单词作为输入单词弹出。            这项工作的主要贡献是使用视觉关系来丰富(enrich)区域级表示并最终增强图像描述的提议。这也可以优雅地了解对象之间可以建立什么样的视觉关系,以及如何很好地利用这些视觉关系来为image captioning学习更多信息和关系感知(relation-aware)区域表示,这些问题尚未完全理解。

2 相关工作

Image Captioning.随着计算机视觉中深度学习[17]的普及,现代图像描述中的主导范式(dominant paradigm)是序列学习方法[7,34,37,38,39,40],它利用CNN加RNN模型生成具有灵活句法结构的新句子。例如,Vinyals等人提出了一种端到端的神经网络结构,通过利用LSTM为[34]中的图像生成句子,在[37]中进一步结合了软/硬注意机制(soft/hard attention),在生成相应的单词时自动关注显着(salient)对象。 [24]开发了一种自适应(adaptive)注意编码器 - 解码器模型,用于自动决定何时依赖视觉信号/语言模型,而不是为每个生成的单词激活图像的视觉注意力。最近,在[35,39]中,证明语义属性被加入到CNN加RNN模型时可以明显提升图像描述能力,并且这些属性可以进一步用作语义注意力[40]以增强图像描述。最近,提出了一种新的基于注意力的编码器 - 解码器模型[2],通过自下而上的注意机制检测一组显着图像区域,然后通过自上而下的注意机制来处理显着区域以产生句子。

Visual Relationship Detection.视觉关系检测上的研究越来越受到关注。一些早期工作[9,10]试图学习四种空间关系(即“above”,“below”,“inside”和“around”)以改善分割。稍后,在[6,32]中探索对象之间的语义关系(例如,actions或interactions),其中语义关系的每个可能组合被视为视觉短语类,并且视觉关系检测被公式化为分类任务。最近,相当多的作品[5,19,23,29,36]设计了基于深度学习的视觉关系检测架构。 [36]将视觉关系视为连接场景图(scene graph)中两个对象节点的有向边,并且以迭代方式沿着构造场景图的处理推断出关系。 [5,19]直接为关系预测学习基于附加联合边界框的视觉特征,它们将object和subject结合在一起。在[23,29]中,参与对象/描述的语言提示被进一步考虑用于视觉关系检测。

Summary.总之,本文的方法属于图像字幕的序列学习方法。 与之前的方法类似[2,8],GCN-LSTM在检测到的对象图像区域上探索了视觉注意力以产生句子。 新颖性在于利用了图像描述对象之间的语义和空间关系,这在以前没有被探索过。 特别是,两种视觉关系都通过GCN无缝地整合到基于LSTM的描述(caption)框架中,旨在产生关系感知区域表示,从而通过强调对象关系潜在地提高生成句子的质量。

图2。 用于图像字幕的图卷积网络+长短期记忆(GCN-LSTM)。 首先利用Faster R-CNN来检测一组显着图像区域。 接下来,在检测到的区域上构建有向的语义/空间图,其中顶点表示每个区域,边表示其间的语义/空间关系。 然后利用图卷积网络(GCN)在结构化语义/空间图中对具有视觉关系的区域进行上下文编码。 之后,将来自每种图形的学习的关系感知区域级特征馈送到一个单独的注意力LSTM解码器中以用于句子生成。 在推理阶段,我们采用后期融合方案来线性融合来自两个解码器的结果。

3 通过探索视觉关系(Visual Relationship)进行Image Captioning

我们设计了图形卷积网络和长期短期记忆(GCN-LSTM)架构,通过另外结合语义和空间对象关系来生成图像描述。 GCN-LSTM首先利用物体检测模块(例如,更快的R-CNN [30])来检测图像内的物体,旨在将整个图像编码和概括为包含物体的一组显着图像区域。然后分别基于对象的语义和空间连接在所有检测到的对象的图像区域上构建语义和空间关系图。接下来,通过GCN对具有语义或空间图结构的整个图像区域集进行上下文编码来执行GCN-LSTM的训练,从而产生关系感知区域表示。所有编码的关系感知区域表示都被进一步注入到基于LSTM的字幕框架中,从而实现了句子生成的区域级注意机制。我们的图像字幕架构概述如图2所示

    3.1 问题制定(Problem Formulation

假设我们有一个用文本句子描述的图像,其中 由个单词组成。设wt∈RDs表示句子S中第t个单词的Ds维文本特征。首先利用更快的R-CNN来产生一组检测到的对象V = {vi} Ki = 1,其中K个图像区域为I和vi∈RDv表示每个图像区域的Dv维度特征。此外,通过将每个图像区域vi视为一个顶点,我们可以构造语义图Gsem =(V,Esem)和空间图Gspa =(V,Espa),其中Esem和Espa表示区域之间的语义和空间关系边缘集合。顶点,分别。关于如何挖掘对象之间的视觉关系以及构建语义和空间图的更多细节将在3.2节中详细说明。

受到最近在图像/视频字幕[26,27,34]和区域级注意机制[2,8]中利用的序列模型的成功启发,我们的目标是在R-CNN加RNN中制作我们的图像字幕模型。方案。我们的R-CNN加RNN方法首先将给定图像解释为具有R-CNN的一组图像区域,然后将它们唯一地编码为以语义/空间图为条件的关系感知特征,并最终通过注意将它们解码为每个目标输出字。 LSTM解码器。源于图形卷积网络[15,25]的思想,我们利用图像编码器中的GCN模块来上下文细化每个图像区域的表示,赋予对象之间固有的视觉关系。因此,我们在这里探讨的句子生成问题可以通过最小化以下能量损失函数来制定: E(V,G,S)= - log Pr(S | V,G),(1) 这是给定检测到的对象V的图像区域和构造关系图G的正确文本句子的负对数概率。注意,为简单起见,我们使用G∈{Gsem,Gspa},即G表示语义图Gsem或空间图GSPA。这里负对数概率通常用交叉熵损失来测量,这不可避免地导致训练和推理之间的评估差异。因此,为了通过修正这种差异来进一步推进我们的字幕模型,我们可以直接优化LSTM,并在[18,22,31]中使用预期的句子级奖励损失。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

转载请注明原文地址: https://www.6miu.com/read-4930156.html

最新回复(0)