深度学习论文笔记:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Abstract

  • 现有的深卷积神经网络(CNN)需要固定尺寸(例如,224×224)的输入图像。
  • 新的网络结构,称为SPP-net,可以生成固定长度的表示,而不管图像大小/规模。
  • 使用SPP-net,我们从整个图像只计算一次特征图,然后在任意区域(子图像)中池特征以生成固定长度表示以训练检测器。

Read More  

深度学习论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

  • mAP: mean average precision,平均准确度
  • 我们的方法结合两个关键的见解:

    • 第一:采用高容量的卷积神经网络来从上到下的进行region proposal,从而实现定位和分割物体。
    • 当标记的训练数据稀缺时,可以先对辅助数据集(任务)进行受监督的预训练, 随后是基于域进行特定调整,产生显着的性能提升。

Read More  

行人检测论文笔记:Fused DNN - A deep neural network fusion approach to fast and robust pedestrian detection

相关知识点

  • L1范数 也称为最小绝对偏差(LAD),最小绝对误差(LAE)。它基本上最小化目标值(Yi)和估计值(f(xi))之间的绝对差(S)的和

  • L2范数也称为最小二乘。它基本上最小化目标值(Yi)和估计值(f(xi))之间的差(S)的平方的和

Abstract

  • 所提出的网络融合架构允许多个网络的并行处理来提高速度。
  • 首先是一个深度卷积网络被训练为一个物体检测器来生成所有有可能的不同尺寸和遮挡的行人候选集。
  • 然后,多个深度神经网络被并行使用来之后提炼这些行人候选集。
  • 我们引入基于软拒绝的网络融合方法将来自所有网络的软度量融合在一起,以产生最终置信分数。
  • 此外,我们提出了一种用于将逐像素语义分割网络( pixel-wise semantic segmentation network)集成到网络融合架构中作为行人检测器的加强的方法。

Read More  

行人检测论文笔记:Robust Real-Time Face Detection

知识点

  • 傅里叶变换的一个推论:

一个时域下的复杂信号函数可以分解成多个简单信号函数的和,然后对各个子信号函数做傅里叶变换并再次求和,就求出了原信号的傅里叶变换。

  • 卷积定理(Convolution Theorem):信号f和信号g的卷积的傅里叶变换,等于f、g各自的傅里叶变换的积


    整个过程的核心就是“(反转),移动,乘积,求和”

Read More  

行人检测论文笔记:Histograms of Oriented Gradients for Human Detection

相关知识点

  • 从TP、FP、TN、FN到ROC曲线、miss rate

    • TP:true positive,实际是正例,预测为正例
    • FP:false positive,实际为负例,预测为正例
    • TN:true negative,实际为负例,预测为负例
    • FN:false negative,实际为正例,预测为负例

  • fnr+tpr=1, fpr+tnr=1
  • miss rate = FNR = 1 - true positive
    • 对于一个确定的阈值t,FPR和TPR是确定的,得到一个(fpr,tpr)元组。
    • 当t增加, # FP也减小, # TN增加,则fpr减小;
    • 当t增加, # TP减小, # FN增加,则tpr减小。
    • 也就是说,当阈值t从0变化到1,fpr和tpr也单调减小,从(1,1)减小到(0,0)
    • miss rate = 1 - true positive rate,那么对应的YoX图像,也就是miss rate - false positive rate图像,就应当是单调下降的曲线。

Read More  

行人检测论文笔记:Fast Feature Pyramids for Object Detection?

相关知识点

  • Overcomplete Representations:

    • Overcomplete:Such a complete system is overcomplete if removal of a $\phi {j}$ from the system results in a system (i.e., ${\phi {i}}_((i\in J\backslash {j))}$) that is still complete.
    • In different research, such as signal processing and function approximation, overcompleteness can help researchers to achieve a more stable, more robust, or more compact decomposition than using a basis.[2]
  • Image pyramid:影响金字塔

    • 影像金字塔由原始影像按一定规则生成的由细到粗不同分辨率的影像集。
    • 指在同一的空间参照下,根据用户需要以不同分辨率进行存储与显示,形成分辨率由粗到细、数据量由小到大的金字塔结构。
    • 图像编码和渐进式图像传输
    • 从图中可以看出, 从金字塔的底层开始每四个相邻的像素经过重采样生成一个新的像素, 依此重复进行, 直到金字塔的顶层。重采样的方法一般有以下三种: 双线性插值、最临近像元法、三次卷积法。
    • 金字塔是一种能对栅格影像按逐级降低分辨率的拷贝方式存储的方法。通过选择一个与显示区域相似的分辨率,只需进行少量的查询和少量的计算,从而减少显示时间。

  • Gradient Histograms:

Read More