论文笔记:A Comprehensive Survey on Graph Neural Networks

  • GNN的发展

    • Spectral graph theory: The first prominent research on GCNs is presented in Bruna et al. (2013), which develops a variant of graph convolution based on spectral graph theory
      • Since that time, there have been increasing improvements, extensions, and approximations on spectral-based graph convolutional networks
    • Spatial-based graph convolutional networks: As spectral methods usually handle the whole graph simultaneously and are difficult to parallel or scale to large graphs, spatial-based graph convolutional networks have rapidly developed recently
      • Together with sampling strategies, the computation can be performed in a batch of nodes instead of the whole graph [24], [27], which has the potential to improve the efficiency.
    • Others: In addition to graph convolutional networks, many alternative graph neural networks have been developed in the past few years.
      • These approaches include graph attention networks, graph autoencoders, graph generative networks, and graph spatial-temporal networks.

Read More  

论文笔记:行为预测(Action Prediction / Anticipation)相关论文略读笔记

论文一:Part-Activated Deep Reinforcement Learning for Action Prediction

现有的许多行为预测的方法会用到整个帧的演化来对动作建模,这不能避免当前动作所带来的噪声,特别是在早期预测中。为了解决这个问题,我们设计了PA-DRL,通过在深层强化学习框架下提取骨架proposal来开发人体结构。具体而言,我们从人体的不同part单独提取特征,并激活特征中与动作相关的部分以增强表征。 我们的方法不仅利用了人体的结构信息,而且还考虑了表达动作的显着部分。 我们在三个流行的动作预测数据集上评估我们的方法:UT-Interaction,BIT-Interaction和UCF101。 我们的实验结果表明,我们的方法通过最先进的技术实现了性能。

Read More  

论文笔记:CVPR 2018 关于行为识别论文略读笔记(二)

论文五:PoTion: Pose MoTion Representation for Action Recognition

和上面两篇论文类似,这篇文章主要是利用人体关键点(Keypoint)来做行为识别。目前的许多方法主要是双流网络来分别处理外观(appearance)和动态(motion)。在本篇文章中,作者引入了一种新颖的表示方式,可以优雅地编码某些语义关键点的移动。我们使用人体关节作为这些关键点,编码后的维度固定的特征称为:PoTion,将该特征图输送到简单的CNN中即可用用来行为识别分类。方法框架图如下:

Read More  

行为识别论文笔记:Something about Temporal Reasoning

在视频的行为识别中,影响性能很重要的一点:就是模型能否提取出强有力的时间信息。虽然有的行为光从单张图像的空间特征就能大概判断出其中所包含的动作是什么,但是还是有很多动作需要从其随时间的变化才能准确判断出来。最近看了几篇关于视频中时间推理(Temproal Reasioning)的文章,这里顺便整理一下。

Read More  

论文笔记:CVPR 2018 关于行为识别论文略读笔记(一)

论文一:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition

这是今年CVPR 2018中做行为识别的一篇文章,提出了一个叫做光流引导的特征(Optical Flow guided Feature,OFF)。时间信息是视频行为识别的关键,二光流可以很好的表征时间信息,其在视频分析领域已经被很多工作证明是一个很有用的特征。但是目前的双流网络Two-Stream在训练时其实还是比较麻烦的,因为需要单独对视频提取光流图,然后送到网络的另一至进行训练;而且如果数据集很大的话,光流图和RGB图像合起来得有原视频数据大小的好几倍,也十分消耗硬盘空间。因此思考如何利用单流网络同时利用RGB特征以及类似光流的特征去进行训练是一个值得思考的问题。本文从光流本身的定义出发,给了我们一个关于该问题很好的启发。该方法也在UCF-101逮到了96%的分类准确率,超过了不用Kinetics数据集预训练的I3D模型,可见该方法的有效性。

Read More  

行为检测论文笔记:One-shot Action Localization by Learning Sequence Matching Network

这是今年CVPR 2018中接受为数不多的动作时间轴定位论文中的另一篇,基于学习的时间轴动作定位方法需要大量的训练数据。 然而,这样的大规模视频数据集不仅非常难以获得而且可能因为存在无数的动作类别而不实用。 当训练样本少且罕见时,当前方法的弊端就暴露出来了。为了解决这个挑战,本文的解决方案是采用匹配网络的One-shot学习技术,并利用相关性来挖掘和定位以前没有看过类别的行为。 本文在THUMOS14和ActivityNet数据集上评估了本文的one-shot动作定位方法。

Read More  

行为检测论文笔记:Rethinking the Faster R-CNN Architecture for Temporal Action Localization

这是今年CVPR 2018中接受为数不多的动作时间轴定位论文中的一篇,解决了目前现存方法中的3个问题:(1)Multi-scale的动作片段;(2)Temproal context的利用;(3)Multi-stream 特征融合。方法在THUMOS’ 14数据集上的提议和检测任务上达到目前最好的效果(mAP@tIoU=0.5达到42.8%),在ActivityNet数据及上取得了具有挑战性的效果。

Read More  

论文调研:ICCV 2017论文调研

Visual object tracking

  • Learning Policies for Adaptive Tracking with Deep Feature Cascades

    • Our fundamental insight is to take an adaptive approach, where easy frames are processed with cheap features (such as pixel values), while challenging frames are processed with invariant but expensive deep features.
    • Formulate the adaptive tracking problem as a decision-making process.
    • Learn an agent to decide whether to locate objects with high confidence on an early layer, or continue processing subsequent layers of a network.
  • Significantly reduces the feedforward cost.
  • Train the agent offline in a reinforcement learning fashion.
  • Obviously, the major computational burden comes from the forward pass through the entire network, and can be larger with deeper architectures.
  • However, when the object is visually distinct or barely moves, early layers are in most scenarios sufficient for precise localization - offering the potential for substantial computational savings.
  • The agent learns to find the target at each layer, and decides if it is confident enough to output and stop there.

Read More  

深度学习论文笔记:DSSD

Abstract

  • 本文的主要贡献在于在当前最好的通用目标检测器中加入了额外的上下文信息。
  • 为实现这一目的:我们通过将ResNet-101SSD结合。然后,我们用deconvolution layers来丰富了SSD + Residual-101,以便在物体检测中引入额外的large-scale的上下文,并提高准确性,特别是对于小物体,从而称之为DSSD
  • 我们通过仔细的加入额外的learned transformations阶段,具体来说是一个用于在deconvolution中前向传递连接的模块,以及一个新的输出模型,使得这个新的方法变得可行,并为之后的研究提供一个潜在的道路。
  • 我们的DSSD具有513×513的输入,在VOC2007测试中达到81.5%de的mAP,VOC2012测试为80.0%de的mAP,COCO为33.2%的mAP,在每个数据集上优于最先进的R-FCN

Read More  

深度学习论文笔记:Deep Residual Learning for Image Recognition

Abstract

  • 本文是何凯明大神的又一篇CVPR最佳论文。
  • 网络越深越难训练,所以我们提出一个residual learning framework从而减轻网络的训练,该网络比以前使用的网络要深得多。
  • 我们明确地将参考层的输入来作为学习残差函数,而不是学习无参考的函数(unreferenced functions)。
  • 我们提供全面的经验证据,表明这些残留网络更容易优化,并可以从显着增加的深度中获得准确性。
  • 这些残留网络的集合在ImageNet测试集上达到3.57%的误差。 该结果在ILSVRC 2015分类任务中荣获第一名。
  • 深度对于许多CV领域的任务都十分重要的。由于我们网络很深,我们在COCO对象检测数据集上获得了28%的相对改进。我们还荣获了ImageNet检测,ImageNet定位,COCO检测和COCO分割任务的第一名。

Read More  

目标检测论文笔记:R-FCN

Abstract

  • 提出了一个region-based, fully convolutional的网络来准确高效的进行物体检测。
  • 不同于Fast/Faster R-CNN,其应用了计算成本很高的每个区域子网络数百次,本论文的region-based detector是完全卷积化的,几乎一张图像上所有的计算都是共享的。
  • 为了实现这一目标,我们提出position-sensitive score maps,以解决在图像分类的平移不变性(translation-invariance)和物体检测中的平移可变性(translation-variance)之间的困境。

Read More  

深度学习论文笔记:YOLO9000

Abstract

  • YOLO9000: a state-of-the-art, real-time 的目标检测系统,可以检测超过9000种的物体分类。
  • 本论文提出两个模型,YOLOv2和YOLO9000
  • YOLOv2:
    • 是对YOLO改进后的提升模型。
    • 利用新颖的,多尺度训练的方法,YOLOv2模型可以在多种尺度上运行,在速度与准确性上更容易去trade off。
  • YOLO9000:
    • 是提出的一种联合在检测和分类数据集上训练的模型,这种联合训练的方法使得YOLO9000能够为没有标签的检测数据目标类预测
    • 可以检测超过9000个类。

Read More  

深度学习论文笔记:YOLO

Abstract

  • 之前的物体检测的方法是使用分类器来进行检测。
  • 相反,本论文将对象检测作为空间分离的边界框和相关类概率的回归问题。
  • 本论文的YOLO模型能达到45fps的实时图像处理效果。
  • Fast YOLO:小型的网络版本,可达到155fps。
  • 与目前的检测系统相比,YOLO会产生更多的定位错误,但是会更少的去在背景中产生false positive。

Read More  

深度学习实践经验:用Faster R-CNN训练行人检测数据集Caltech——准备工作

前言

Faster R-CNN是Ross Girshick大神在Fast R-CNN基础上提出的又一个更加快速、更高mAP的用于目标检测的深度学习框架,它对Fast R-CNN进行的最主要的优化就是在Region Proposal阶段,引入了Region Proposal Network (RPN)来进行Region Proposal,同时可以达到和检测网络共享整个图片的卷积网络特征的目标,使得region proposal几乎是cost free的。

关于Faster R-CNN的详细介绍,可以参考我上一篇博客

Faster R-CNN的代码是开源的,有两个版本:MATLAB版本(faster_rcnn)Python版本(py-faster-rcnn)

这里我主要使用的是Python版本,Python版本在测试期间会比MATLAB版本慢10%,因为Python layers中的一些操作是在CPU中执行的,但是准确率应该是差不多的。

Read More  

深度学习论文笔记:Faster R-CNN

Abstract

  • Region Proposal的计算是基于Region Proposal算法来假设物体位置的物体检测网络比如:SPPnet, Fast R-CNN运行时间的瓶颈。
  • Faster R-CNN引入了Region Proposal Network(RPN)来和检测网络共享整个图片的卷积网络特征,因此使得region proposal几乎是cost free的。
  • RPN->预测物体边界(object bounds)和在每一位置的分数(objectness score)
  • 通过在一个网络中共享RPN和Fast R-CNN的卷积特征来融合两者——使用“attention”机制。
  • 300 proposals pre image.

Read More