1.CenterNet Heatmap propagation for Real-time Video Object Detection

本文介绍了一种基于CentNet One-Stage检测器的方法。以heatmap的形式传播之前可依赖的长程检测，来加速未来图像的结果。

1.介绍

此前的视频目标检测方法大多是基于Two-Stage检测器的，直接在已有的时间信息聚合方法上应用One-Stage检测器困难很大，或者不可行。因为One-Stage和Two-Stage的目标边界框表示大大不同，一些方法通过对ROI池化过的特征进行操作，然而其在One-stage方法中并不存在。

本文提出了一种热图传播方法，来高效的解决视频目标检测问题。该方法基于一个One-Stage检测器：CenterNet，其对一张图像的不同类别输出所检测到的所有目标的中心点的热图。

对于视频中的一帧，将稳定的、可检测到的目标转移到一个propagation heatmap，在这张热图中，用其对应类的置信度分数来高亮每个目标中心的潜在位置。对于下一帧，考虑propagationrequest和网络输出的热图，生成一张平衡的热图。这与为每个目标生成一个在线的跟踪小片段类似，此外根据每一帧的检测结果更新置信度分数。

CornerNet检测目标边界框的关键点，例如顶点或中心点。网络的输出是关键点的热图和一些用于偏移的回归值，或者是依赖于不同结构的原始边界框尺寸。

3.Proposed Method

3.1 CenterNet

CenterNet是一个基于heatmap的one-stage检测器，其预测目标的中心位置和目标的尺寸。若某个像素点对应目标的中心，则为1，否则对应背景，为0。此外，网络预测一个局部偏移O来恢复输出步长引起的离散误差、以及一个回归S，用于目标尺寸回归。

如图1所示，整个网络包含3个内容：一个普通的卷积网络Nfeat，如ResNet，从输入图像提取特征图。一个反卷积网络Ndecv，由3x3的变形卷积层DCL和up conv层组成。最后有三个分离的头部 Nhead，共享相同的backbone特征图，输出Y、O、S。表示某像素点是否是目标中心，O是局部偏移，S用于回归目标尺寸。

由于计算开销的原因，所有的类共享相同的偏移预测和目标尺寸，因此，网络最终的输出尺寸是WxHx(C+4)。

3.2 Heatmap传播

传播过程：将输出热图的面积扩大为$(2P+1)^2$,并将不同目标的热图合并为一张热图，并通过公式5和6进行热图传播。在估计边界框尺寸时，使用等式7而不是等式5，不包含跟踪长度，原因是目标的尺寸会随着时间而改变（相机和目标之间有相对位移）。在这里仅使用之前帧和当前帧进行估计。

总结：

创新点：

将One-Stage检测器CenterNet用于视频目标检测
以热图的形式传播先前帧的检测结果（而不是特征图）
由于One-Stage检测器的先天优势，该方法的速度较快，为37FPS，达到实时

缺点：

该方法的mAP为76.7%，而基于Two-Stage的方法精度在82%左右
检测精度相比基于Two-Stage的检测器还有一定差距

2.Single Shot Video Object Detector

本文所提出的SSVD，使用one-stage检测器进行特征聚合，使用特征金字塔网络FPN作为backbone，产生多尺度的特征。SSVD一方面估计运动，沿着运动路径聚合相邻帧的特征，另一方面在一个“双流结构”中直接从相邻帧采样特征。

Sampling Stream:通过self-guided从相邻帧采样，直接生成特征。

当目标因运动模糊或遮挡造成了表观退化，Sampling Stream比motion Stream有效。

当目标快速运动时，Sampling Stream不能精确的定位目标。这是由于Sampling Stream的感受野比光流生成更小。因此，Sampling Stream的运动估计范围比运动流更短。导致Sampling Stream在目标快速运动时无法捕捉运动。

最终，作者将两者结合，同时利用运动校准和self-guided采样，即采用一个双流特征聚合结构进行视频目标检测。此外，作者将single shot 目标检测框架整合到特征聚合中，更适用于计算敏感的视频场景。

SSVD包含三个核心模块：

特征金字塔网络（FPN）
双流特征聚合结构
class/box子网络

FPN用于输出多尺度特征图，金字塔的每张特征图被喂给双流特征聚合结构。第一个是motion Stream，根据光流估计帧间目标位移，并沿着运动路径扭曲相邻帧的特征图到参考帧。另一个是Sampling Stream，通过可变形卷积对相邻帧的时空特征进行采样，直接产生参考帧的特征图。每个流聚合过的特征图被输入到class/box子网络，进行anchor box的分类、回归anchor box到ground truth目标框。最终的结果是两个流中所有特征映射的混合输出。整个SSVD通过最小化框分类的Focal Loss和框回归的标准平滑L1损失进行端到端的训练。

本文的主要贡献是提出了一个one-stage检测器SSVD用于解决视频目标检测问题。SSVD一方面利用single-shot检测器的优点（比two-stage更简单、更快）,另一方面利用帧间时间一致性来加速检测。

SSVD属于feature-level聚合方法，创新点是探索利用双流特征聚合（motion和sampling流）。motion流通过光流和扭曲相邻帧的特征图来估计运动，执行特征聚合。sampling流通过从相邻帧进行时空采样，直接获得参考帧的特征图。

Motion Stream

首先使用PWC-Net预测每个尺度的光流（由FPN得到），之后在光流的指导下执行motion-aware校准（通过双线性扭曲）。文中介绍PWC-Net光流提取法尺寸更小，更容易训练。在得到所有支持帧的校准过的特征图后，在每个尺度上对其求平均。

Sampling Stream

用self-guided采样，直接通过从支持帧采样获取特征。变形卷积比标准卷积多了一个2D偏移，2D偏移通过输入特征自己计算得到，没有额外的监督。在本文中，作者将标准变形卷积增加了空间采样位置，只以一个特征图为条件，来测量参考帧和支持帧之间的变形。换句话说，sampling Stream的特征聚合模块，通过输入帧的2D偏移学习预测参考帧和支持帧之间潜在的相关性，没有用到光流。

3.A Delay Metric for Video Object Detection: What Average Precision Fails to Tell

Average Precision（AP）被广泛用于评估图像和视频目标检测器的检测精度。但是只用AP不足以捕捉视频目标检测自然存在的时间信息。本文提出了一个综合的度量方法：Average delay(AD)，来度量和对比检测延时。为了便于延迟计算，我们仔细地选择了ImageNet VID的一个子集，我们将其命名为ImageNet VIDT，并强调了复杂的轨迹。通过在VIDT上广泛评估检测器，我们表明大多数方法大幅度增加了检测延迟，但仍然保持较高的AP。换句话说，AP不够灵敏，无法反映视频目标检测器的时间特征。作者认为视频目标检测方法应该加上用delay metric进行评估，特别是一些不能容忍延时的应用场景：如自动驾驶。

创新点：

针对视频目标检测问题，提出了一种新的度量方式Average delay(AD)

缺点：

Average delay(AD)不能很好地支持现有数据集（如ImageNet VID）

1.CenterNet Heatmap propagation for Real-time Video Object Detection

1.介绍

2.Related work

3.Proposed Method

3.1 CenterNet

3.2 Heatmap传播

总结：

创新点：

缺点：

2.Single Shot Video Object Detector

Motion Stream

Sampling Stream

3.A Delay Metric for Video Object Detection: What Average Precision Fails to Tell

创新点：

缺点：