深度学习论文笔记:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Abstract

  • 现有的深卷积神经网络(CNN)需要固定尺寸(例如,224×224)的输入图像。
  • 新的网络结构,称为SPP-net,可以生成固定长度的表示,而不管图像大小/规模。
  • 使用SPP-net,我们从整个图像只计算一次特征图,然后在任意区域(子图像)中池特征以生成固定长度表示以训练检测器。

Read More  

深度学习论文笔记:Rich feature hierarchies for accurate object detection and semantic segmentation

Abstract

  • mAP: mean average precision,平均准确度
  • 我们的方法结合两个关键的见解:

    • 第一:采用高容量的卷积神经网络来从上到下的进行region proposal,从而实现定位和分割物体。
    • 当标记的训练数据稀缺时,可以先对辅助数据集(任务)进行受监督的预训练, 随后是基于域进行特定调整,产生显着的性能提升。

Read More  

行人检测论文笔记:Fused DNN - A deep neural network fusion approach to fast and robust pedestrian detection

相关知识点

  • L1范数 也称为最小绝对偏差(LAD),最小绝对误差(LAE)。它基本上最小化目标值(Yi)和估计值(f(xi))之间的绝对差(S)的和

  • L2范数也称为最小二乘。它基本上最小化目标值(Yi)和估计值(f(xi))之间的差(S)的平方的和

Abstract

  • 所提出的网络融合架构允许多个网络的并行处理来提高速度。
  • 首先是一个深度卷积网络被训练为一个物体检测器来生成所有有可能的不同尺寸和遮挡的行人候选集。
  • 然后,多个深度神经网络被并行使用来之后提炼这些行人候选集。
  • 我们引入基于软拒绝的网络融合方法将来自所有网络的软度量融合在一起,以产生最终置信分数。
  • 此外,我们提出了一种用于将逐像素语义分割网络( pixel-wise semantic segmentation network)集成到网络融合架构中作为行人检测器的加强的方法。

Read More  

行人检测论文笔记:How Far are We from Solving Pedestrian Detection?

文章疑问点

  • Human Baseline 的标准是如何确定的?
  • Ground-truth是什么意思?

    • Groun-truth 指的是正确的标注(真实值)
    • 在有监督学习中,数据是有标注的,以(x, t)的形式出现,其中x是输入数据,t是标注.正确的t标注是ground truth,错误的标记则不是。(也有人将所有标注数据都叫做ground truth)。
  • Intersection over Union(IoU)是什么?

    • Intersection over Union is an evaluation metric used to measure the accuracy of an object detector on a particular dataset.

    • Any algorithm that provides predicted bounding boxes as output can be evaluated using IoU.

    • As long as we have these two sets of bounding boxes we can apply Intersection over Union.

    • An Intersection over Union score > 0.5 is normally considered a “good” prediction.

  • FPPI: False Positive Per Image
  • Oracle Experiment: An oracle experiment is used to compare your actual system to how your system would behave if some component of it always did the right thing.

Read More  

行人检测论文笔记:Robust Real-Time Face Detection

知识点

  • 傅里叶变换的一个推论:

一个时域下的复杂信号函数可以分解成多个简单信号函数的和,然后对各个子信号函数做傅里叶变换并再次求和,就求出了原信号的傅里叶变换。

  • 卷积定理(Convolution Theorem):信号f和信号g的卷积的傅里叶变换,等于f、g各自的傅里叶变换的积


    整个过程的核心就是“(反转),移动,乘积,求和”

Read More  

行人检测论文笔记:Ten Years of Pedestrian Detection, What Have We Learned?

Abstract

  • 这种新的决策林探测器在挑战性的Caltech-USA数据集上实现了当前最好的已知性能。

Introduction

  • 更重要的是,这是一个有着已建立的基准和评估指标的良好定义的问题。
  • 用于对象检测的的主要范例有——”Viola&Jones变体“,HOG + SVM模板,可变形部分检测器(DPM)和卷积神经网络(ConvNets)都已经被探索用于此任务。

Read More  

深度学习读书笔记:DeepLearningBook - Chapter 9 - Conventional Networks

Chapter 9 Convolutional Networks(卷积神经网络)

  • 卷积网络仅仅是在其至少一个层中使用卷积代替一般矩阵乘法的神经网络。

The Convolution Operation

  • The convolution operation is typically denoted with an asterisk:

  • 在卷积网络术语中,卷积的第一个参数(在本例中为函数x)通常称为 输入 ,第二个参数(在本例中为函数w)作为 内核输出 有时称为 特征映射(feature map)
  • 在机器学习应用中, 输入 通常是多维数据数组,并且 内核 通常是由学习算法调整的多维参数数组。
  • 我们将这些多维数组称为 张量(tensors)

Read More  

行人检测论文笔记:Histograms of Oriented Gradients for Human Detection

相关知识点

  • 从TP、FP、TN、FN到ROC曲线、miss rate

    • TP:true positive,实际是正例,预测为正例
    • FP:false positive,实际为负例,预测为正例
    • TN:true negative,实际为负例,预测为负例
    • FN:false negative,实际为正例,预测为负例

  • fnr+tpr=1, fpr+tnr=1
  • miss rate = FNR = 1 - true positive
    • 对于一个确定的阈值t,FPR和TPR是确定的,得到一个(fpr,tpr)元组。
    • 当t增加, # FP也减小, # TN增加,则fpr减小;
    • 当t增加, # TP减小, # FN增加,则tpr减小。
    • 也就是说,当阈值t从0变化到1,fpr和tpr也单调减小,从(1,1)减小到(0,0)
    • miss rate = 1 - true positive rate,那么对应的YoX图像,也就是miss rate - false positive rate图像,就应当是单调下降的曲线。

Read More  

行人检测论文笔记:Fast Feature Pyramids for Object Detection?

相关知识点

  • Overcomplete Representations:

    • Overcomplete:Such a complete system is overcomplete if removal of a $\phi {j}$ from the system results in a system (i.e., ${\phi {i}}_((i\in J\backslash {j))}$) that is still complete.
    • In different research, such as signal processing and function approximation, overcompleteness can help researchers to achieve a more stable, more robust, or more compact decomposition than using a basis.[2]
  • Image pyramid:影响金字塔

    • 影像金字塔由原始影像按一定规则生成的由细到粗不同分辨率的影像集。
    • 指在同一的空间参照下,根据用户需要以不同分辨率进行存储与显示,形成分辨率由粗到细、数据量由小到大的金字塔结构。
    • 图像编码和渐进式图像传输
    • 从图中可以看出, 从金字塔的底层开始每四个相邻的像素经过重采样生成一个新的像素, 依此重复进行, 直到金字塔的顶层。重采样的方法一般有以下三种: 双线性插值、最临近像元法、三次卷积法。
    • 金字塔是一种能对栅格影像按逐级降低分辨率的拷贝方式存储的方法。通过选择一个与显示区域相似的分辨率,只需进行少量的查询和少量的计算,从而减少显示时间。

  • Gradient Histograms:

Read More  

行人检测论文笔记:Pedestrian Detection - An Evaluation of the State of the Art

知识点

  • 对数正态分布(lognormally distributed):对数为正态分布的任意随机变量的概率分布。
    • 如果 X 是正态分布的随机变量,则 exp(X)为对数正态分布.
    • 如果 Y 是对数正态分布,则 ln(Y) 为正态分布。
    • 如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。
    • 对数正态分布的概率密度函数为:

  • 对数平均:对数平均与几何平均相等,并且比算数平均,对于对数正态分布数据的典型值更具代表性
    • 二个数字的对数平均小于其算术平均,大于几何平均,若二个数字相等,对数平均会等于算数平均及几何平均。

  • Histogram of Oriented Gradients for Objection Detection.(HOG)步骤:
    • Sampling positive images
    • Sampling negative images
    • Training a Linear SVM
    • Performing hard-negative mining
    • Re-training your Linear SVM using the hard-negative samples
    • Evaluating your classifier on your test dataset, utilizing non-maximum suppression to ignore redundant, overlapping bounding boxes
  • NMS:Non-maximum Suppression(非极大值抑制):可看成一种局部极大值搜索,这里的局部极大值要比他的邻域值都要大。这里的邻域表示有两个参数:维度和n-邻域。
  • LBP: Local Binary Patterns

Read More  

行人检测论文笔记:Pedestrian Detection - A Benchmark

知识点

  • k折交叉验证
  • Non-Maximum Suppression:非极大值抑制算法,非极大值抑制(NMS)可以看做是抑制不是极大值的元素,搜索局部的极大值的搜索问题,NMS是许多计算机视觉算法的部分。
    • 这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
    • 在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。

Abstract

  • 引进了一个新的数据集——Caltech。
  • 提出了了个更高的评估标准。
  • 证明了平常用的逐个窗口检测的方法是有瑕疵的,在完整的图片上会预测失败。
  • 衡量了现有的检测系统。
  • 分析了一般的常见失败情况。

Read More  

南清北复交北航哈工大中科院华科保研记

前言

7月23号从中科院软件所参加完夏令营回来,我的漫长的保研路也算是告一段落。

8月12号东软实训结束,8月13号坐上回家的火车,8月14号到家,然后就一直吃喝睡到今天,拿回来的几本书也没看几眼,本来打算着回来继续充实一下,去备战9,10月份的推免,现在看来时间又都荒废了……开学还是乖乖到学校吧,再这样下去一直待在家感觉要成废人一个了,我还是喜欢忙碌充实的感觉。

一直想着要把这次宝贵的保研经历记录一下,好给学弟学妹一个参考。学弟学妹们可以结合自身情况,大概了解一下保研流程,部分学校保研考核要求,从而少走一些弯路,去到自己理想中的学校。

Read More