深度学习论文笔记:DSSD

Abstract

  • 本文的主要贡献在于在当前最好的通用目标检测器中加入了额外的上下文信息。
  • 为实现这一目的:我们通过将ResNet-101SSD结合。然后,我们用deconvolution layers来丰富了SSD + Residual-101,以便在物体检测中引入额外的large-scale的上下文,并提高准确性,特别是对于小物体,从而称之为DSSD
  • 我们通过仔细的加入额外的learned transformations阶段,具体来说是一个用于在deconvolution中前向传递连接的模块,以及一个新的输出模型,使得这个新的方法变得可行,并为之后的研究提供一个潜在的道路。
  • 我们的DSSD具有513×513的输入,在VOC2007测试中达到81.5%de的mAP,VOC2012测试为80.0%de的mAP,COCO为33.2%的mAP,在每个数据集上优于最先进的R-FCN

Read More  

目标检测论文笔记:R-FCN

Abstract

  • 提出了一个region-based, fully convolutional的网络来准确高效的进行物体检测。
  • 不同于Fast/Faster R-CNN,其应用了计算成本很高的每个区域子网络数百次,本论文的region-based detector是完全卷积化的,几乎一张图像上所有的计算都是共享的。
  • 为了实现这一目标,我们提出position-sensitive score maps,以解决在图像分类的平移不变性(translation-invariance)和物体检测中的平移可变性(translation-variance)之间的困境。

Read More  

深度学习论文笔记:YOLO9000

Abstract

  • YOLO9000: a state-of-the-art, real-time 的目标检测系统,可以检测超过9000种的物体分类。
  • 本论文提出两个模型,YOLOv2和YOLO9000
  • YOLOv2:
    • 是对YOLO改进后的提升模型。
    • 利用新颖的,多尺度训练的方法,YOLOv2模型可以在多种尺度上运行,在速度与准确性上更容易去trade off。
  • YOLO9000:
    • 是提出的一种联合在检测和分类数据集上训练的模型,这种联合训练的方法使得YOLO9000能够为没有标签的检测数据目标类预测
    • 可以检测超过9000个类。

Read More  

深度学习论文笔记:YOLO

Abstract

  • 之前的物体检测的方法是使用分类器来进行检测。
  • 相反,本论文将对象检测作为空间分离的边界框和相关类概率的回归问题。
  • 本论文的YOLO模型能达到45fps的实时图像处理效果。
  • Fast YOLO:小型的网络版本,可达到155fps。
  • 与目前的检测系统相比,YOLO会产生更多的定位错误,但是会更少的去在背景中产生false positive。

Read More  

深度学习实践经验:用Faster R-CNN训练行人检测数据集Caltech——准备工作

前言

Faster R-CNN是Ross Girshick大神在Fast R-CNN基础上提出的又一个更加快速、更高mAP的用于目标检测的深度学习框架,它对Fast R-CNN进行的最主要的优化就是在Region Proposal阶段,引入了Region Proposal Network (RPN)来进行Region Proposal,同时可以达到和检测网络共享整个图片的卷积网络特征的目标,使得region proposal几乎是cost free的。

关于Faster R-CNN的详细介绍,可以参考我上一篇博客

Faster R-CNN的代码是开源的,有两个版本:MATLAB版本(faster_rcnn)Python版本(py-faster-rcnn)

这里我主要使用的是Python版本,Python版本在测试期间会比MATLAB版本慢10%,因为Python layers中的一些操作是在CPU中执行的,但是准确率应该是差不多的。

Read More  

深度学习论文笔记:Faster R-CNN

Abstract

  • Region Proposal的计算是基于Region Proposal算法来假设物体位置的物体检测网络比如:SPPnet, Fast R-CNN运行时间的瓶颈。
  • Faster R-CNN引入了Region Proposal Network(RPN)来和检测网络共享整个图片的卷积网络特征,因此使得region proposal几乎是cost free的。
  • RPN->预测物体边界(object bounds)和在每一位置的分数(objectness score)
  • 通过在一个网络中共享RPN和Fast R-CNN的卷积特征来融合两者——使用“attention”机制。
  • 300 proposals pre image.

Read More