本文最后更新于:2021年3月20日 晚上
1.CenterNet Heatmap propagation for Real-time Video Object Detection
本文介绍了一种基于CentNet One-Stage检测器的方法。以heatmap的形式传播之前可依赖的长程检测,来加速未来图像的结果。
1.介绍
此前的视频目标检测方法大多是基于Two-Stage检测器的,直接在已有的时间信息聚合方法上应用One-Stage检测器困难很大,或者不可行。因为One-Stage和Two-Stage的目标边界框表示大大不同,一些方法通过对ROI池化过的特征进行操作,然而其在One-stage方法中并不存在。
本文提出了一种热图传播方法,来高效的解决视频目标检测问题。该方法基于一个One-Stage检测器:CenterNet,其对一张图像的不同类别输出所检测到的所有目标的中心点的热图。
对于视频中的一帧,将稳定的、可检测到的目标转移到一个propagation heatmap,在这张热图中,用其对应类的置信度分数来高亮每个目标中心的潜在位置。对于下一帧,考虑propagationrequest和网络输出的热图,生成一张平衡的热图。这与为每个目标生成一个在线的跟踪小片段类似,此外根据每一帧的检测结果更新置信度分数。
2.Related work
CornerNet检测目标边界框的关键点,例如顶点或中心点。网络的输出是关键点的热图和一些用于偏移的回归值,或者是依赖于不同结构的原始边界框尺寸。
3.Proposed Method
3.1 CenterNet
CenterNet是一个基于heatmap的one-stage检测器,其预测目标的中心位置和目标的尺寸。若某个像素点对应目标的中心,则为1,否则对应背景,为0。此外,网络预测一个局部偏移O来恢复输出步长引起的离散误差、以及一个回归S,用于目标尺寸回归。
如图1所示,整个网络包含3个内容:一个普通的卷积网络Nfeat,如ResNet,从输入图像提取特征图。一个反卷积网络Ndecv,由3x3的变形卷积层DCL和up conv层组成。最后有三个分离的头部 Nhead,共享相同的backbone特征图,输出Y、O、S。表示某像素点是否是目标中心,O是局部偏移,S用于回归目标尺寸。
由于计算开销的原因,所有的类共享相同的偏移预测和目标尺寸,因此,网络最终的输出尺寸是WxHx(C+4)。
3.2 Heatmap传播
传播过程:将输出热图的面积扩大为$(2P+1)^2$,并将不同目标的热图合并为一张热图,并通过公式5和6进行热图传播。在估计边界框尺寸时,使用等式7而不是等式5,不包含跟踪长度,原因是目标的尺寸会随着时间而改变(相机和目标之间有相对位移)。在这里仅使用之前帧和当前帧进行估计。
总结:
创新点:
- 将One-Stage检测器CenterNet用于视频目标检测
- 以热图的形式传播先前帧的检测结果(而不是特征图)
- 由于One-Stage检测器的先天优势,该方法的速度较快,为37FPS,达到实时
缺点:
- 该方法的mAP为76.7%,而基于Two-Stage的方法精度在82%左右
- 检测精度相比基于Two-Stage的检测器还有一定差距
2.Single Shot Video Object Detector
本文所提出的SSVD,使用one-stage检测器进行特征聚合,使用特征金字塔网络FPN作为backbone,产生多尺度的特征。SSVD一方面估计运动,沿着运动路径聚合相邻帧的特征,另一方面在一个“双流结构”中直接从相邻帧采样特征。
Sampling Stream:通过self-guided从相邻帧采样,直接生成特征。
当目标因运动模糊或遮挡造成了表观退化,Sampling Stream比motion Stream有效。
当目标快速运动时,Sampling Stream不能精确的定位目标。这是由于Sampling Stream的感受野比光流生成更小。因此,Sampling Stream的运动估计范围比运动流更短。导致Sampling Stream在目标快速运动时无法捕捉运动。
最终,作者将两者结合,同时利用运动校准和self-guided采样,即采用一个双流特征聚合结构进行视频目标检测。此外,作者将single shot 目标检测框架整合到特征聚合中,更适用于计算敏感的视频场景。
SSVD包含三个核心模块:
- 特征金字塔网络(FPN)
- 双流特征聚合结构
- class/box子网络
FPN用于输出多尺度特征图,金字塔的每张特征图被喂给双流特征聚合结构。第一个是motion Stream,根据光流估计帧间目标位移,并沿着运动路径扭曲相邻帧的特征图到参考帧。另一个是Sampling Stream,通过可变形卷积对相邻帧的时空特征进行采样,直接产生参考帧的特征图。每个流聚合过的特征图被输入到class/box子网络,进行anchor box的分类、回归anchor box到ground truth目标框。最终的结果是两个流中所有特征映射的混合输出。整个SSVD通过最小化框分类的Focal Loss和框回归的标准平滑L1损失进行端到端的训练。
本文的主要贡献是提出了一个one-stage检测器SSVD用于解决视频目标检测问题。SSVD一方面利用single-shot检测器的优点(比two-stage更简单、更快),另一方面利用帧间时间一致性来加速检测。
SSVD属于feature-level聚合方法,创新点是探索利用双流特征聚合(motion和sampling流)。motion流通过光流和扭曲相邻帧的特征图来估计运动,执行特征聚合。sampling流通过从相邻帧进行时空采样,直接获得参考帧的特征图。
Motion Stream
首先使用PWC-Net预测每个尺度的光流(由FPN得到),之后在光流的指导下执行motion-aware校准(通过双线性扭曲)。文中介绍PWC-Net光流提取法尺寸更小,更容易训练。在得到所有支持帧的校准过的特征图后,在每个尺度上对其求平均。
Sampling Stream
用self-guided采样,直接通过从支持帧采样获取特征。变形卷积比标准卷积多了一个2D偏移,2D偏移通过输入特征自己计算得到,没有额外的监督。在本文中,作者将标准变形卷积增加了空间采样位置,只以一个特征图为条件,来测量参考帧和支持帧之间的变形。换句话说,sampling Stream的特征聚合模块,通过输入帧的2D偏移学习预测参考帧和支持帧之间潜在的相关性,没有用到光流。
3.A Delay Metric for Video Object Detection: What Average Precision Fails to Tell
Average Precision(AP)被广泛用于评估图像和视频目标检测器的检测精度。但是只用AP不足以捕捉视频目标检测自然存在的时间信息。本文提出了一个综合的度量方法:Average delay(AD),来度量和对比检测延时。为了便于延迟计算,我们仔细地选择了ImageNet VID的一个子集,我们将其命名为ImageNet VIDT,并强调了复杂的轨迹。通过在VIDT上广泛评估检测器,我们表明大多数方法大幅度增加了检测延迟,但仍然保持较高的AP。换句话说,AP不够灵敏,无法反映视频目标检测器的时间特征。作者认为视频目标检测方法应该加上用delay metric进行评估,特别是一些不能容忍延时的应用场景:如自动驾驶。
创新点:
- 针对视频目标检测问题,提出了一种新的度量方式Average delay(AD)
缺点:
- Average delay(AD)不能很好地支持现有数据集(如ImageNet VID)