论文笔记:行为预测(Action Prediction / Anticipation)相关论文略读笔记

论文一:Part-Activated Deep Reinforcement Learning for Action Prediction

现有的许多行为预测的方法会用到整个帧的演化来对动作建模,这不能避免当前动作所带来的噪声,特别是在早期预测中。为了解决这个问题,我们设计了PA-DRL,通过在深层强化学习框架下提取骨架proposal来开发人体结构。具体而言,我们从人体的不同part单独提取特征,并激活特征中与动作相关的部分以增强表征。 我们的方法不仅利用了人体的结构信息,而且还考虑了表达动作的显着部分。 我们在三个流行的动作预测数据集上评估我们的方法:UT-Interaction,BIT-Interaction和UCF101。 我们的实验结果表明,我们的方法通过最先进的技术实现了性能。

Read More  

论文笔记:CVPR 2018 关于行为识别论文略读笔记(二)

论文五:PoTion: Pose MoTion Representation for Action Recognition

和上面两篇论文类似,这篇文章主要是利用人体关键点(Keypoint)来做行为识别。目前的许多方法主要是双流网络来分别处理外观(appearance)和动态(motion)。在本篇文章中,作者引入了一种新颖的表示方式,可以优雅地编码某些语义关键点的移动。我们使用人体关节作为这些关键点,编码后的维度固定的特征称为:PoTion,将该特征图输送到简单的CNN中即可用用来行为识别分类。方法框架图如下:

Read More  

行为识别论文笔记:Something about Temporal Reasoning

在视频的行为识别中,影响性能很重要的一点:就是模型能否提取出强有力的时间信息。虽然有的行为光从单张图像的空间特征就能大概判断出其中所包含的动作是什么,但是还是有很多动作需要从其随时间的变化才能准确判断出来。最近看了几篇关于视频中时间推理(Temproal Reasioning)的文章,这里顺便整理一下。

Read More  

论文笔记:CVPR 2018 关于行为识别论文略读笔记(一)

论文一:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

这是今年CVPR 2018中做行为识别的一篇文章,提出了一个叫做光流引导的特征(Optical Flow guided Feature,OFF)。时间信息是视频行为识别的关键,二光流可以很好的表征时间信息,其在视频分析领域已经被很多工作证明是一个很有用的特征。但是目前的双流网络Two-Stream在训练时其实还是比较麻烦的,因为需要单独对视频提取光流图,然后送到网络的另一至进行训练;而且如果数据集很大的话,光流图和RGB图像合起来得有原视频数据大小的好几倍,也十分消耗硬盘空间。因此思考如何利用单流网络同时利用RGB特征以及类似光流的特征去进行训练是一个值得思考的问题。本文从光流本身的定义出发,给了我们一个关于该问题很好的启发。该方法也在UCF-101逮到了96%的分类准确率,超过了不用Kinetics数据集预训练的I3D模型,可见该方法的有效性。

Read More