QQ Group: 428014259 Tencent E-mail:403568338@qq.com http://blog.csdn.net/dgyuanshaofeng/article/details/83389211
作者:Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh 单位:The Robotics Institute Carnegi Mellon University
提出部位亲和场(Part Affinity Fields),其是一种非参数表征,用于联系身体部位。
叙述top-down方法的基本流程以及局限。指出bottom-up方法的某些好处以及局限。分析了两种基本bottom-up方法,并且本文在bottom-up方法上提出部位相似场,即二维向量场集合,在图像域对limbs的位置和方向进行编码。
作者方法的整体pipeline如图1所示。首先,一个前向网络同时预测身体部位位置的二维置信度图集合((b)图),和部位关系的二维向量场集合(©图)。部位亲和场如图2所示。图1(d)为根据部位亲和场好部位置信度图进行贪婪推理,最后输出解析结果,如图1(e)。
图 1:整体pipeline 图 2:多人姿态估计好部位亲和场如图3所示,为同时进行检测和关联的网络结构,很明显就是类似于CPM[2]。网络结构可以分裂为两条分支,其一为上分支,用于预测置信度图,其二为下分支,用于预测亲和场。两条分支均为迭代预测结构,即分为多个阶段,后续的阶段逐步优化(refine)前级的预测结果。另外,每个阶段均有中继监督,即深度监督机制。
RGB图像首先经过一个由VGG-19前10层预训练权重组成的卷积网络,提取特征图 F \bold{F} F,即图3中的 F F F。 F F F送入两条分支。在第一阶段,如图3所示,上分支预测检测置信度图 S 1 = ρ 1 ( F ) \bold{S}^{1}=\rho^{1}(\bold{F}) S1=ρ1(F),下分支预测部位亲和场 L 1 = ϕ 1 ( F ) \bold{L}^{1}=\phi^{1}(\bold{F}) L1=ϕ1(F)。在后续阶段,如图3所示,上分支的 F 1 \bold{F}^1 F1、下分支的 L 1 \bold{L}^1 L1和原始特征图 F \bold{F} F级联起来,送入下一阶段的上、下分支,这其实就是auto-context策略[3]。
图 3:网络结构如图4所示为逐步优化结果。上、下分支均采用欧式距离损失函数,如下所示。 f S t = ∑ j = 1 J ∑ p W ( p ) ⋅ ∣ ∣ S j t ( p ) − S j ∗ ( p ) ∣ ∣ 2 2 f^{t}_{\bold{S}}=\sum^{J}_{j=1}\sum_{\bold{p}}\bold{W}(\bold{p})\cdot||\bold{S}^{t}_{j}(\bold{p})-\bold{S}^{*}_{j}(\bold{p})||^{2}_{2} fSt=j=1∑Jp∑W(p)⋅∣∣Sjt(p)−Sj∗(p)∣∣22 f L t = ∑ c = 1 C ∑ p W ( p ) ⋅ ∣ ∣ L j t ( p ) − L c ∗ ( p ) ∣ ∣ 2 2 f^{t}_{\bold{L}}=\sum^{C}_{c=1}\sum_{\bold{p}}\bold{W}(\bold{p})\cdot||\bold{L}^{t}_{j}(\bold{p})-\bold{L}^{*}_{c}(\bold{p})||^{2}_{2} fLt=c=1∑Cp∑W(p)⋅∣∣Ljt(p)−Lc∗(p)∣∣22 其中, S j ∗ \bold{S}^{*}_{j} Sj∗和 L c ∗ \bold{L}^{*}_{c} Lc∗分别为部位置信度图和部位亲和向量场的ground-truth。 各阶段总的损失,如下所示,整个网络可端到端训练。 f = ∑ t = 1 T ( f S t + f L t ) f=\sum^{T}_{t=1}(f^{t}_{\bold{S}}+f^{t}_{\bold{L}}) f=t=1∑T(fSt+fLt)
图 4:逐阶段优化结果[1] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields CVPR 2017 [paper] [2] Convolutional Pose Machines CVPR 2016 [paper] [Caffe code] [3]
