论文调研:ICCV 2017论文调研

Visual object tracking

  • Learning Policies for Adaptive Tracking with Deep Feature Cascades

    • Our fundamental insight is to take an adaptive approach, where easy frames are processed with cheap features (such as pixel values), while challenging frames are processed with invariant but expensive deep features.
    • Formulate the adaptive tracking problem as a decision-making process.
    • Learn an agent to decide whether to locate objects with high confidence on an early layer, or continue processing subsequent layers of a network.
  • Significantly reduces the feedforward cost.
  • Train the agent offline in a reinforcement learning fashion.
  • Obviously, the major computational burden comes from the forward pass through the entire network, and can be larger with deeper architectures.
  • However, when the object is visually distinct or barely moves, early layers are in most scenarios sufficient for precise localization - offering the potential for substantial computational savings.
  • The agent learns to find the target at each layer, and decides if it is confident enough to output and stop there.

Read More  

深度学习论文笔记:DSSD

Abstract

  • 本文的主要贡献在于在当前最好的通用目标检测器中加入了额外的上下文信息。
  • 为实现这一目的:我们通过将ResNet-101SSD结合。然后,我们用deconvolution layers来丰富了SSD + Residual-101,以便在物体检测中引入额外的large-scale的上下文,并提高准确性,特别是对于小物体,从而称之为DSSD
  • 我们通过仔细的加入额外的learned transformations阶段,具体来说是一个用于在deconvolution中前向传递连接的模块,以及一个新的输出模型,使得这个新的方法变得可行,并为之后的研究提供一个潜在的道路。
  • 我们的DSSD具有513×513的输入,在VOC2007测试中达到81.5%de的mAP,VOC2012测试为80.0%de的mAP,COCO为33.2%的mAP,在每个数据集上优于最先进的R-FCN

Read More  

深度学习论文笔记:Deep Residual Learning for Image Recognition

Abstract

  • 本文是何凯明大神的又一篇CVPR最佳论文。
  • 网络越深越难训练,所以我们提出一个residual learning framework从而减轻网络的训练,该网络比以前使用的网络要深得多。
  • 我们明确地将参考层的输入来作为学习残差函数,而不是学习无参考的函数(unreferenced functions)。
  • 我们提供全面的经验证据,表明这些残留网络更容易优化,并可以从显着增加的深度中获得准确性。
  • 这些残留网络的集合在ImageNet测试集上达到3.57%的误差。 该结果在ILSVRC 2015分类任务中荣获第一名。
  • 深度对于许多CV领域的任务都十分重要的。由于我们网络很深,我们在COCO对象检测数据集上获得了28%的相对改进。我们还荣获了ImageNet检测,ImageNet定位,COCO检测和COCO分割任务的第一名。

Read More  

目标检测论文笔记:R-FCN

Abstract

  • 提出了一个region-based, fully convolutional的网络来准确高效的进行物体检测。
  • 不同于Fast/Faster R-CNN,其应用了计算成本很高的每个区域子网络数百次,本论文的region-based detector是完全卷积化的,几乎一张图像上所有的计算都是共享的。
  • 为了实现这一目标,我们提出position-sensitive score maps,以解决在图像分类的平移不变性(translation-invariance)和物体检测中的平移可变性(translation-variance)之间的困境。

Read More  

深度学习论文笔记:YOLO9000

Abstract

  • YOLO9000: a state-of-the-art, real-time 的目标检测系统,可以检测超过9000种的物体分类。
  • 本论文提出两个模型,YOLOv2和YOLO9000
  • YOLOv2:
    • 是对YOLO改进后的提升模型。
    • 利用新颖的,多尺度训练的方法,YOLOv2模型可以在多种尺度上运行,在速度与准确性上更容易去trade off。
  • YOLO9000:
    • 是提出的一种联合在检测和分类数据集上训练的模型,这种联合训练的方法使得YOLO9000能够为没有标签的检测数据目标类预测
    • 可以检测超过9000个类。

Read More  

深度学习论文笔记:YOLO

Abstract

  • 之前的物体检测的方法是使用分类器来进行检测。
  • 相反,本论文将对象检测作为空间分离的边界框和相关类概率的回归问题。
  • 本论文的YOLO模型能达到45fps的实时图像处理效果。
  • Fast YOLO:小型的网络版本,可达到155fps。
  • 与目前的检测系统相比,YOLO会产生更多的定位错误,但是会更少的去在背景中产生false positive。

Read More