论文笔记:CVPR 2018 关于行为识别论文略读笔记(二)

论文五:PoTion: Pose MoTion Representation for Action Recognition

和上面两篇论文类似,这篇文章主要是利用人体关键点(Keypoint)来做行为识别。目前的许多方法主要是双流网络来分别处理外观(appearance)和动态(motion)。在本篇文章中,作者引入了一种新颖的表示方式,可以优雅地编码某些语义关键点的移动。我们使用人体关节作为这些关键点,编码后的维度固定的特征称为:PoTion,将该特征图输送到简单的CNN中即可用用来行为识别分类。方法框架图如下:

Read More  

行为识别论文笔记:Something about Temporal Reasoning

在视频的行为识别中,影响性能很重要的一点:就是模型能否提取出强有力的时间信息。虽然有的行为光从单张图像的空间特征就能大概判断出其中所包含的动作是什么,但是还是有很多动作需要从其随时间的变化才能准确判断出来。最近看了几篇关于视频中时间推理(Temproal Reasioning)的文章,这里顺便整理一下。

Read More  

论文笔记:CVPR 2018 关于行为识别论文略读笔记(一)

论文一:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

这是今年CVPR 2018中做行为识别的一篇文章,提出了一个叫做光流引导的特征(Optical Flow guided Feature,OFF)。时间信息是视频行为识别的关键,二光流可以很好的表征时间信息,其在视频分析领域已经被很多工作证明是一个很有用的特征。但是目前的双流网络Two-Stream在训练时其实还是比较麻烦的,因为需要单独对视频提取光流图,然后送到网络的另一至进行训练;而且如果数据集很大的话,光流图和RGB图像合起来得有原视频数据大小的好几倍,也十分消耗硬盘空间。因此思考如何利用单流网络同时利用RGB特征以及类似光流的特征去进行训练是一个值得思考的问题。本文从光流本身的定义出发,给了我们一个关于该问题很好的启发。该方法也在UCF-101逮到了96%的分类准确率,超过了不用Kinetics数据集预训练的I3D模型,可见该方法的有效性。

Read More