深度学习实践经验:用Faster R-CNN训练行人检测数据集Caltech——准备工作

前言

Faster R-CNN是Ross Girshick大神在Fast R-CNN基础上提出的又一个更加快速、更高mAP的用于目标检测的深度学习框架,它对Fast R-CNN进行的最主要的优化就是在Region Proposal阶段,引入了Region Proposal Network (RPN)来进行Region Proposal,同时可以达到和检测网络共享整个图片的卷积网络特征的目标,使得region proposal几乎是cost free的。

关于Faster R-CNN的详细介绍,可以参考我上一篇博客

Faster R-CNN的代码是开源的,有两个版本:MATLAB版本(faster_rcnn)Python版本(py-faster-rcnn)

这里我主要使用的是Python版本,Python版本在测试期间会比MATLAB版本慢10%,因为Python layers中的一些操作是在CPU中执行的,但是准确率应该是差不多的。

Read More  

深度学习论文笔记:Faster R-CNN

Abstract

  • Region Proposal的计算是基于Region Proposal算法来假设物体位置的物体检测网络比如:SPPnet, Fast R-CNN运行时间的瓶颈。
  • Faster R-CNN引入了Region Proposal Network(RPN)来和检测网络共享整个图片的卷积网络特征,因此使得region proposal几乎是cost free的。
  • RPN->预测物体边界(object bounds)和在每一位置的分数(objectness score)
  • 通过在一个网络中共享RPN和Fast R-CNN的卷积特征来融合两者——使用“attention”机制。
  • 300 proposals pre image.

Read More  

深度学习论文笔记:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Abstract

  • 现有的深卷积神经网络(CNN)需要固定尺寸(例如,224×224)的输入图像。
  • 新的网络结构,称为SPP-net,可以生成固定长度的表示,而不管图像大小/规模。
  • 使用SPP-net,我们从整个图像只计算一次特征图,然后在任意区域(子图像)中池特征以生成固定长度表示以训练检测器。

Read More  

深度学习论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

  • mAP: mean average precision,平均准确度
  • 我们的方法结合两个关键的见解:

    • 第一:采用高容量的卷积神经网络来从上到下的进行region proposal,从而实现定位和分割物体。
    • 当标记的训练数据稀缺时,可以先对辅助数据集(任务)进行受监督的预训练, 随后是基于域进行特定调整,产生显着的性能提升。

Read More  

行人检测论文笔记:Fused DNN - A deep neural network fusion approach to fast and robust pedestrian detection

相关知识点

  • L1范数 也称为最小绝对偏差(LAD),最小绝对误差(LAE)。它基本上最小化目标值(Yi)和估计值(f(xi))之间的绝对差(S)的和

  • L2范数也称为最小二乘。它基本上最小化目标值(Yi)和估计值(f(xi))之间的差(S)的平方的和

Abstract

  • 所提出的网络融合架构允许多个网络的并行处理来提高速度。
  • 首先是一个深度卷积网络被训练为一个物体检测器来生成所有有可能的不同尺寸和遮挡的行人候选集。
  • 然后,多个深度神经网络被并行使用来之后提炼这些行人候选集。
  • 我们引入基于软拒绝的网络融合方法将来自所有网络的软度量融合在一起,以产生最终置信分数。
  • 此外,我们提出了一种用于将逐像素语义分割网络( pixel-wise semantic segmentation network)集成到网络融合架构中作为行人检测器的加强的方法。

Read More  

深度学习读书笔记:DeepLearningBook - Chapter 9 - Conventional Networks

Chapter 9 Convolutional Networks(卷积神经网络)

  • 卷积网络仅仅是在其至少一个层中使用卷积代替一般矩阵乘法的神经网络。

The Convolution Operation

  • The convolution operation is typically denoted with an asterisk:

  • 在卷积网络术语中,卷积的第一个参数(在本例中为函数x)通常称为 输入 ,第二个参数(在本例中为函数w)作为 内核输出 有时称为 特征映射(feature map)
  • 在机器学习应用中, 输入 通常是多维数据数组,并且 内核 通常是由学习算法调整的多维参数数组。
  • 我们将这些多维数组称为 张量(tensors)

Read More