论文笔记:行为预测(Action Prediction / Anticipation)相关论文略读笔记

论文一:Part-Activated Deep Reinforcement Learning for Action Prediction

现有的许多行为预测的方法会用到整个帧的演化来对动作建模,这不能避免当前动作所带来的噪声,特别是在早期预测中。为了解决这个问题,我们设计了PA-DRL,通过在深层强化学习框架下提取骨架proposal来开发人体结构。具体而言,我们从人体的不同part单独提取特征,并激活特征中与动作相关的部分以增强表征。 我们的方法不仅利用了人体的结构信息,而且还考虑了表达动作的显着部分。 我们在三个流行的动作预测数据集上评估我们的方法:UT-Interaction,BIT-Interaction和UCF101。 我们的实验结果表明,我们的方法通过最先进的技术实现了性能。

Temporal Recurrent Networks for Online Action Detection

以前的预测方法仅根据历史信息来进行预判,而不利用未来信息

动机:1)与仅仅关注过去相比,联合建模当前行动识别和未来在训练中的行动预期将迫使网络学习更具辨别力的表示;2)明确预测将来会发生什么作为额外时间背景的来源,将有助于在测试时对当前行动进行分类。实验也有验证这一点,方法架构图如下:

主要是重新设计了一个RNNcell,这样在原本RNN的基础上额外加入了未来信息来达到目的。

Action Prediction from Videos via Memorizing Hard-to-Predict Samples

这是AAAI-2018的一篇关于行为预测的文章。文章有提出行为预测的一个困难点在于:在某些动作中,由于视觉相似性,开始的几帧特征是不具有足够的辨别力以进行准确分类。如何解决这个问题对于行为预测的性能也是至关重要的,这样可以帮助分类器尽早的对行为进行分类,虽然最近的研究表明,当观察到一半长度的视频时,预测性能通常就会变得稳定,但还是有必要越早发现具有判别性的特征越好。因此本文提出了加入Memory机制,从而在训练阶段记住难以预测的训练样本。

为了帮助更好的预测,本工作使用了未来的信息。在实现上是采用具有前向连接和后向连接的双层双向LSTM来表征时间动作演变并捕获用于预测的未来信息。这一点和Bidirectional Attentive Fusion With Context Gating for Dense Video Captioning这篇论文的想法有点像。