[Caffe-Code]
论文主要通过采用 Attention Model 学习图像的多标签间的关系,然后作为多标签图像分类的空间正则项进行模型训练.
Figure1. SRN结构例示. SRN只利用图像级监督信息,从标签注意力图学习标签间的语义和空间关系. Figure2. 网络基础模型基于ResNet-101. 针对各标签分别学习得到独立的分类器. “Res-2048” 表示具有2048输出的 ResNet 网络模块. 下面红色虚线框为,SRN 采用ResNet-101的视觉特征作为输入,利用注意力机制学习得到标签间的正则空间关系. 结合主网络和SRN的分类结果得到最终的分类置信度.
当图像存在某个标签时,更多的注意力应该放在相关的区域.
标签注意力图编码了标签对应的丰富空间信息,且所有标签的加权注意力图是空间对齐的,因此采用堆积卷积操作能够容易地捕捉标签间的相对关联性.
为了能够捕捉标签间复杂空间关系,卷积应该具有足够大的接受野.
这里在不同卷积层解耦标签语义关联性学习和空间关联性学习. 直观性解释,一个标签可能只与其它标签中的一少部分语义相关,而对于语义无关的标签的注意力图进行空间关联性估计是没有必要的. Figure4. 从加权注意力图学习空间正则因子的详细网络结构. 前两个卷积核为 1×1 的卷积层捕捉标签的语义相关性,第三个卷积层的卷积核为14×14,2048输出,学习标签间的空间关联性. 对第三个卷积层的 filters 进行分类分组,各小类具有 4 个核,对应输入特征图的一个 feature channel. 同一组下的4个核分别卷积相同的 feature channel,不同的核捕捉语义相关标签间的空间关联性.
fcnn f c n n - ResNet
输入: image, 224x224x3输出: feature map X, 14x14x1024fcls f c l s - 多标签分类,
Res-2048(stride=2) - Res-2048 - Res-2048输入: feature map X, 14x14x1024 输出: 预测的标签置信度 y^cls y ^ c l sfatt f a t t - Attention Maps
Conv(512, kenel 1x1) - Conv(512, kenel 3x3) - ReLU - Conv(C, kernel 1x1) - Softmax输入: feature map X, 14x14x1024 输出: label attention values Z, 14x14xC;最终的 label attention maps A, 14x14xC. 其中, A=Softmax(Z)fsr f s r - Spatial Regularizations
输入:label attention maps A, 14x14xC
confidence map S, 14x14xC (由 feature map X 经 Conv(C, kernel1x1) 得到.)
输出: weighted attention maps U, 14x14xCU=σ(S)∘A U = σ ( S ) ∘ A
采用交叉熵cross-entropy loss.
分四个阶段:
只训练主网络, 基于 ResNet, pretrained on ImageNet. fcnn f c n n 和 fcls f c l s .固定 fcnn f c n n 和 fcls f c l s , 训练 fatt f a t t .固定 fcnn f c n n , fcls f c l s 和 fatt f a t t , 训练 fsr f s r .联合训练整个网络.4 NVIDIA Titan X GPUs.
MS-COCO, 16 hours.