本文最后更新于:2021年3月20日 晚上

最近因为准备期末考试,blog停更了一段时间。

  • Jiang Z, Gao P, Guo C, et al. Video object detection with locally-weighted deformable neighbors[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8529-8536.
  • Zhu X, Dai J, Yuan L, et al. Towards high performance video object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 7210-7218.

一、LWDN

1.简介

LWDN(局部加权的变形邻域)不使用耗费时间的光流提取网络,可以潜在的对齐高级特征。使用空间上不同的权值来合并相对应的邻域。为了使用时间信息,将两帧之间的差异作为输入,来预测权值。此外,还预测了偏移量来自适应的合并邻域。

本文提出的LWDN模块,使用特征加权的方式来利用时间信息。LWDN学习预测位置敏感的权重,权重被用于传播关键帧的特征到关键帧或非关键帧。此外还使用了时间一致性信息,采用brain-inspired memory mechanism来传播和更新关键帧和关键帧之间的memory特征。

2.LWDN

LWDN有3个重要的模块:Weight predictor network、feature correlation、aggregation unit

作者个单个视频帧的特征分为4个部分:

  1. low-level feature(the lower-part of CNN)
  2. high-level feature(higher-part of CNN)
  3. task feature(负责最终的检测)
  4. memory feature(被用于在关键帧和关键帧之间传播memory feature)

图:LWDN的过程,作者将其称为:自适应位置敏感的特征传播。k表示之前的关键帧,Tk表示之前关键帧的task feature。当低级特征Lk被计算出后,Weight Predictor Network将Lk和Lk+i作为输入,产出位置敏感的kernel weights和对应的kernel offsets。然后,之前关键帧的Task特征Tk将被空间不同的变形卷积(使用预测出的kernel weights 和 offsets),传播到非关键帧。

图:Memory-Guided Propagation Networks,包括两个过程:关键帧到关键帧的推理:更新memory feature、关键帧到非关键帧的推理:传播task feature。k0、k1是关键帧,k1+i是非关键帧,+号为聚合单元,x号为LWDN操作。

关键帧到非关键帧的过程:

​ 关键帧的task特征通过LWDN操作传播到非关键帧(使用Weight Predictor Network预测出的权重,Weight Predictor Network通过两个低级特征来产生权重)。

关键帧到关键帧的过程:

​ 首先两个关键帧的低级特征,被喂给Weight Predictor Network产生位置敏感的权重和偏移。之后LWDN操作通过使用旧关键帧memory feature和权重、偏移,来生成对齐过的特征。最终对齐过的特征和新关键帧的高级特征一起被聚合为任务特征和新的memory feature(将被循环传播到下一个关键帧)

1.Weight Predictor Network

权重预测网络用于生成空间变化的权重和偏移,输入两个低级特征,按axis=0生成串联特征。之后使用3x3的卷积将串联特征减小到256维。然后沿着axis=0切开,得到reduced low-level 特征。之后关联reduced low-level 特征,使用256通道的3x3卷积核、softmax操作,来生成位置敏感的权重。对于关键帧和关键帧之间的W1,另加一个1x1的卷积核,2xkxk个通道 来生成位置敏感的offsets。

2.Feature Correlation

使用相关性对相邻的两个低阶特征映射进行乘法路径比较,作为Weight Predictor Network的输入。给出两个级别的特征图f1、f2、以及w、h、c(宽、高、通道数),相关层使得网络对比f1和f2的每一块,以帮助得到这两帧更好的判别器。

3.聚合单元

特征的聚合权重通过一个质量估计网络Nq来生成。其有三个随机初始化的层:3x3x256卷积、1x1x16卷积、1x1x1卷积。输出是逐位置的原始分数图,将被应用于对应特征的每一个通道。不同特征的原始分数图将被归一化,并且通过加和来获得融合过的特征。

二、THP

本文提出了一种更快、更精确、更灵活的视频目标检测方法,主要有三个技术:

  1. 稀疏循环特征聚合用于保持聚合的特征质量,通过只在稀疏关键帧上操作,减少计算开销。

    ​ 利用DFF和MEGA的互补属性,合并了DFF和MEGA的方法,速度和精度同样好。

  2. 引入空间自适应的局部特征更新,来在传播特征质量较差的非关键帧上重新计算特征。在端到端的训练中,通过一个新的公式来学习特征质量。(该技术进一步提升了识别精度)

    ​ 将时域自适应特征计算扩展至空间域,得到空间自适应特征计算,更高效。

  3. 使用时间自适应的关键帧选择策略,来替代之前固定的关键帧选择。根据上面预测出的特征质量预测一个关键帧的使用。(使得关键帧的使用更高效)

    ​ 提出自适应关键帧选择策略,进一步提升了特征计算效率。

DFF:稀疏特征聚合

首次引入关键帧的概念,只在关键帧(每10帧)上执行特征网络。通过运动场(光流网络)将之前的关键帧的特征传播到非关键帧。

FGFA:密集特征聚合

首次引入时间特征聚合的概念,在所有帧上执行特征网络(每一帧都为关键帧)。将当前帧前后的所有帧的特征都加权平均到当前帧,(权重通过一个嵌入特征来计算)。由于在密集的连续帧上重复的光流估计和特征聚合,精度有所提高,但速度相比DFF慢了三倍。

DFF和FGFA都是基于相同的准则:

  1. 运动估计模块不可或缺
  2. 所有模块在多帧上端到端的学习对于检测精度十分重要。

1.稀疏循环特征聚合

尽管密集特征聚合(FGFA)显著提升了检测精度,但是很慢。一方面,没有必要对相邻帧执行密集的特征网络,因为他们的表观都比较相似。另一方面,需要通过多个光流场估计帧间运动,然后将多个特征图聚合,这进一步减慢了检测器。

这里提出的稀疏循环特征聚合,只在稀疏的关键帧上执行特征网络和循环特征聚合。给出两个连续的关键帧k和k’,第k‘帧聚合结果为:

原则上,聚合过的关键帧特征 ${\overline{F}}_{k}$聚合了之前所有历史关键帧的丰富信息。

2.空间自适应局部特征更新

尽管DFF的稀疏特征聚合通过近似真实的特征 $F_{k}$实现了显著的速度提升,但是传播后的特征图$F_{k->i}$由于临近帧之间的表观变化容易出错。

对于非关键帧,我们希望进行特征传播以高效的计算。然而等式(1)取决于传播质量的好坏。为了量化传播后的特征$F_{k->i}$是否是$Fi$的一个好的近似,作者引入了一个特征时间一致性度量$Q_{k->i}$,将其作为光流网络$N_{flow}$的一个姊妹分支,与$M_{i->k}$一起进行预测,

如果预测出的$Q_{k->i}\leqτ$,则传播后的特征$F_{k->i}(p)$与真实特征$F_{i}(p)$不一致。也就是说$F_{k->i}(p)$是一个不好的近似,应使用实际特征$F_{i}(p)$更新。

3.时间自适应关键帧选择

只在稀疏的关键帧上评估特征网络$N_{feat}$对于提升速度非常重要。使用预先固定比率的策略选择关键帧很naive(例如,每L帧选取一个关键帧)。一个更好地关键帧选择策略应当在时间域上适应动态变化。可以基于上述的特征一致指示器$Q_{k->i}$来设计关键帧选择策略。

$Q_{k->i}(p)\leqτ$表示表观变化或者运动较大,导致特征传播质量较差。$N_p$表示位置p的总数量。如果所有像素点的$Q_{k->i}(p)\leqτ$之和大于$\gamma$,则该帧为关键帧。

上图橘色的是关键帧,其所有像素点的$Q_{k->i}(p)\leqτ$之和大于$\gamma$,(即由于运动、表观变化导致质量低,Q小,被选为关键帧)。蓝色的为非关键帧,其表观变化较小。