行为检测论文笔记:Rethinking the Faster R-CNN Architecture for Temporal Action Localization

这是今年CVPR 2018中接受为数不多的动作时间轴定位论文中的一篇,解决了目前现存方法中的3个问题:(1)Multi-scale的动作片段;(2)Temproal context的利用;(3)Multi-stream 特征融合。方法在THUMOS’ 14数据集上的提议和检测任务上达到目前最好的效果(mAP@tIoU=0.5达到42.8%),在ActivityNet数据及上取得了具有挑战性的效果。

背景

  • 时间轴行为检测其实和目标检测相类似,因此目前许多行为检测的方法都受启发于目标检测的一些先进方法,比如R-CNN系列,先从整个视频中生成segments proposal,然后用分类器去对这些proposal进行分类。

  • 目前有一些方法将Faster R-CNN迁移到时间轴行为检测中,然而直接迁移过来引入一些挑战,如下:

    • 如何处理行动持续时间的巨大变化?

      因为行为会有许多时间长短不一的持续时间,从几秒到几分钟的行为片段都有,而Faster R-CNN利用anchor提proposal会在特征的temporal scope和anchor的span之间产生misalignment现象。我们提出了一个multi-tower网络和利用扩张时间卷积(dilated temporal convolutions)来解决alignment的问题。

    • 如何利用时间上下文信息?

      动作实例之前和之后的时刻包含关于定位和分类的关键信息(可以说比对象的空间上下文更重要)。Faster R-CNN没有利用时间上下文信息。我们建议通过扩展提案生成和动作分类中的感受野来明确地编码时间上下文。

    • 如何最好的去融合multi-stream的特征?

      对于Faster R-CNN探索这种RGB和Flow特征融合方面的工作有限。 我们提出了一个后期融合方案,并且经验性地证明了它在一般的早期融合方案上的优势。

目的

解决Faster R-CNN直接引入到时间轴行为检测中的上述3个挑战,并以此来提升Faster R-CNN在行为检测中的性能.

方法

论文框架如下:

mage-20180528153210

本文提出了TAL-Net,有三个创新的结构改变:

  • Receptive Field Alignment

    • 传统的anchor机制有一个缺点:每个时间点的锚点分类都有相同的单一的感受野。

    • 为了解决这个问题,我们建议将每个锚点的感受野与它的时间跨度对齐。 这是通过两个关键因素实现的:multi-tower网络和扩张时间卷积(dilated temporal convolutions)。

    • 给定一个一维feature map,我们的Segment Proposal Network 由K个temproal ConvNets 组成,每个K网络负责对特定比例的锚段进行分类.最重要的是,每个时间ConvNet都经过精心设计,使得其接受的字段大小与相关的锚点尺度一致。 在每个ConvNet结束时,我们分别应用两个核心大小为1的平行卷积层进行锚定分类和边界回归。

    • 另一问题:如何设计具有可控感受野s的时间卷积?

      • 方法一:如果s=2L+1,则叠加L层卷积层得到相应的感受野。缺点是层数L随着s线性增加,很容易增加参数数量使网络过拟合。

      • 方法二:在每一层卷积层后添加一个kernel size为2的pooling层,则感受野$s=2^{(L+1)}-1$,此时层数随着s成log变化,但是添加pooling层会减小输出feature map的分辨率,会影响定位准确率。

      • 方法三:使用扩充时间卷积,这种卷积可以在扩充感受野的同时不损失分辨率。在我们的Segment Proposal Network中,每一个temporal ConvNet都只由2个dilated convolutional layers组成。为了获得一个目标感受野s,则第一层的dilated convolutional layers的dilation rate $r_1=s/6, r_2=(s/6)\times2$.

  • Context Feature Extraction

    • 时间轴上下文信息十分重要

    • 为了确保上下文特征用于锚定分类和边界回归,感受野必须覆盖时间轴上下文信息区域,可以通过将dilation rate加倍,即$r_1=s/6\times2, r_2=(s/6)\times2\times2$,如下:

    • 在动作分类阶段,我们要利用SoI pooling来为每个proposal提取一个固定尺寸的feature map

  • Late Feature Fusion

    • 目前许多方法都在使用RGB和光流特征
    • 本文为双流特征提出了一个后融合的机制
    • 们首先使用两个不同的网络分别从RGB帧和叠加的光流中提取两个一维特征映射。 我们通过一个不同的Segment Proposal Network来处理每个feature ma,该网络并行地生成锚定分类和边界回归的逻辑。 我们使用来自两个网络的logits的元素平均值作为最终的逻辑来生成提议。 对于每个提案,我们在两个特征映射上并行执行SoI池,并在每个输出上应用不同的DNN分类器。

实验

  • 基于TensorFlow目标检测API

  • 9个anchor,scales为{1, 2, 3, 4, 5, 6, 8, 11, 16}

  • NMS阈值为0.7去筛选proposal,保留前300个proposal用于分类

  • THUMOS’ 14检测结果

  • ActivityNet v1.3在验证集的检测结果

优点

相比于R-C3D,本文的方法解决了Multi-scale的问题,利用了上下文信息以及额外的光流信息,解决了目前许多方法中存在的大大小小的缺陷,组合成了一个较为完整的框架,因此在THUMOS’ 14数据集上检测效果达到最好,在ActivityNet数据集上也取得了很有竞争力的结果,但是还是不如SSN的结果。文中分析:THUMOS’ 14是一个更好的用来评估行为定位的数据集,因为其每段视频中包含有更多的行为实例,并且每段视频包含大量的背景活动。

缺点

我认为除了第一点创新:利用dilated temporal convlutional组成感受野可控的multi-tower网络来解决multi-scale问题比较有创新外,另外两点创新其实不算特别有新意。