论文笔记:CVPR 2018 关于行为识别论文略读笔记(一)

论文一:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

这是今年CVPR 2018中做行为识别的一篇文章,提出了一个叫做光流引导的特征(Optical Flow guided Feature,OFF)。时间信息是视频行为识别的关键,二光流可以很好的表征时间信息,其在视频分析领域已经被很多工作证明是一个很有用的特征。但是目前的双流网络Two-Stream在训练时其实还是比较麻烦的,因为需要单独对视频提取光流图,然后送到网络的另一至进行训练;而且如果数据集很大的话,光流图和RGB图像合起来得有原视频数据大小的好几倍,也十分消耗硬盘空间。因此思考如何利用单流网络同时利用RGB特征以及类似光流的特征去进行训练是一个值得思考的问题。本文从光流本身的定义出发,给了我们一个关于该问题很好的启发。该方法也在UCF-101逮到了96%的分类准确率,超过了不用Kinetics数据集预训练的I3D模型,可见该方法的有效性。

本文提出的光流引导特征(OFF),它使网络能够通过快速和稳健的方法提取时间信息。 OFF由光流的定义导出,并与光流正交。该特征由水平和垂直方向上的特征图的空间梯度以及从不同帧的特征图之间的差异获得的时间梯度组成,OFF操作是CNN特征上的像素级运算,而且所有操作都是可导的,因此整个过程是可以端到端训练的,而且可以应用到仅有RGB输入的网络中去同时有效提取空间和时间特征。

论文二:Recognize Actions by Disentangling Components of Dynamics

这是今年CVPR 2018中做行为识别的另一篇文章。本文和第一篇论文的中心思想相似:都是想通过原始的RGB图像直接在网络中间接获得类似光流的特征,从而减少目前双流网络中计算光流模块导致的额外开销。因此本文提出了一个新的用于视频表征学习的ConvNet框架,其可以完全从原始视频帧中推导出动态信息,而不需进行额外的光流估计。具体网络框架如下:

大致流程为:给定一个连续的帧序列,该模型首先产生一些低级特征映射,然后将其馈入三个分支,分别是静态外观(Static Appearance,上),外观动态(Apparent Motion,中)和外观变化(Appearance Change,下)。 这些分支分别计算其对应的高级特征并进行预测。 最后,这些预测被合并为最终的预测。最后,3个组件预测出的结果将通过求平均的方式融合到一起生成最终的预测。

其中在静态外观分支,通过迭代地应用2D卷积,空间2D池化和时间1D池化来逐渐提取外观特征;在外观动态分支,主要提取视频帧中特征点的空间位移,主要第一次引入了Cost Volume来进行外观动态的估计;在外观变化分支中,由于不是所有的变化都能够通过外观动态表解释,诸如物体外观的固有变化或照明变化的其他因素也可能导致视频帧的变化,不同于以前使用RGB-diff的方法,本文提出了一个叫做warped differences的方法来表征外观变化。

通过在UCF101和Kinetics两个数据集上进行验证,本文的方法在仅使用RGB图像帧的前提下也能取得很有竞争力的结果,而且具有很高的效率,证明了方法的优越性和有效性。

论文三:2D/3D Pose Estimation and Action Recognition using Multitask Deep Learning

这是今年CVPR 2018中利用姿态做行为识别的一篇文章,主要突出了一个多任务网络来同时做2D和3D的姿态估计以及2D和3D的行为识别,同时利用姿态估计的结果来促进行为识别任务的性能。这也是解决问题的一个很好的出发点,就是利用两个任务来互相促进

下图是网络的整体框架图,输入静态的RGB图像,同时进行姿态估计和行为识别。其中的姿态估计模型是利用基于回归的方法,其中利用了一个可微分的Softargmax来联合2D和3D的姿态估计。其中的动作识别方法分为两部分,一部分基于身体关节坐标序列,我们称之为基于姿态的识别,另一部分基于一系列视觉特征,我们称其为基于外观的识别。 将每个部分的结果组合起来估计最终的动作标签。

作者在MPII, Human3.6M, Penn Action 和 NTU四个数据集上进行了实验,验证了模型在两个任务上的有效性。

本文值得借鉴的一个思想就是:利用多任务之间的互相促进,来提升各自任务的有效性。

论文四:Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

这是今年CVPR 2018中基于骨架(Skeleton-based)来做行为识别的一篇文章,但是一个重要的创新点是利用增强学习首先找到一段视频帧中最具动作代表性的帧,丢弃掉序列中的不明确帧,然后利用基于图的神经网络来捕捉关节连接点之间的依赖关系,从而达到行为识别的目的。框架图如下:

方法大致流程为:给定一个人体关节的视频,我们首先选择框架提取网络(FDNet)来提取视频中的关键帧,这是由提出的深度渐进式强化学习方法进行训练所得到。 我们根据两个重要因素逐步调整每个状态下的选定帧。 一个是所选帧用于动作识别的所具备的判别能力。 另一个是所选帧与整个动作序列的关系。然后,我们采用基于图的卷积神经网络(GCNN),它保留了人体关节之间的依赖关系,以处理所选关键帧以进行动作识别。 本文的方法在三个广泛使用的数据集上实现了非常有竞争力的性能。