行人检测论文笔记:Pedestrian Detection - A Benchmark

知识点

  • k折交叉验证
  • Non-Maximum Suppression:非极大值抑制算法,非极大值抑制(NMS)可以看做是抑制不是极大值的元素,搜索局部的极大值的搜索问题,NMS是许多计算机视觉算法的部分。
    • 这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。
    • 在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。

Abstract

  • 引进了一个新的数据集——Caltech。
  • 提出了了个更高的评估标准。
  • 证明了平常用的逐个窗口检测的方法是有瑕疵的,在完整的图片上会预测失败。
  • 衡量了现有的检测系统。
  • 分析了一般的常见失败情况。

Introduction

  • INRIA数据集。
  • 现有数据集的缺陷。
  • 贡献(4方面)。

Dataset

  • 介绍了Caltech数据集的数据内容,标记等。
  • Scale(等级,范围)根据行人的图片大小,将行人分为3个范围:near(80或者更多像素)、medium(30-80像素之间)、far(30像素或更少)。

    • 大约68%的行人位于中等大小范围。
    • 对于medium范围的加测对于汽车应用是十分重要的。
    • 我们应当在整个工作中利用ner/ medium /far之间的区别。
  • Occlusion(遮挡)

    • 遮挡的行人通过两个框来标注。
    • 29%的行人从来没有被挡住
    • 53%的呗挡在一部分帧
    • 19%的在所有帧中都被挡
  • Position(位置):由于视点和地表形状的原因约束着行人值出现在图片的特定区域,经过分析,行人文职更加集中而不是突然出现的。

  • 数据捕捉了超过11种场景:0-5用来作为训练,6-10用来作为测试
  • 设置了三个具体的训练/测试场景

    • Scenario-A:在所有外部数据上进行训练,在会话6-10上进行测试。这样允许在已经存在的方法上不进行重新训练就能进行广泛的调查。
    • Scenario-B:利用会话0-5进行6折交叉验证,每次使用5个session来进行训练,第6个进行测试,然后在验证集上融合结果,在政策训练集上汇报检测器的表现。
    • Scenario-C:用0-5会话来训练,用6-10会话来测试。(完整测试)
  • 与现有的数据集的比较:

    • 广泛使用的‘人’数据集:MIT LabelMe的子集和PASCAL VOC数据集。
    • 现有数据集可以分为两类:一类是人数据集包含了人的各种姿势,另一类是行人数据集包含了垂直的人(站立或者行走),但主要是从一个较为限制的视点进行观察的。
    • 从摄影师处收集的数据集都存在 选择偏差 ,但是监控视频有着有限的背景,移动拍摄的数据会极大的排除了选择偏差。
    • INRIA偏向于打的,大部分未遮挡的行人
    • 其他相关的数据集有:DC,ETH
  • Caltech数据集最先进和重要的方面,而且这是目前第一个数据集与时间相对应的标注框和详细遮挡标签。

评估方法

  • 现有的已建立的评估行人检测方法是有瑕疵的。
  • pre-window VS pre-image
  • pre-window:逐窗口检测器在图像上被密集扫描并且邻近的检测被合并,比如使用NMS。
  • 一个典型的假设是:较好的pre-window分数会在一整个图片上带来更好的表现;然而在实际中pre-window表现在预测pre-image性能时失败。
  • 不是所有检测系统都是基于华东窗口的,而且pre-window方法对这类系统的评估是不可能的。

Pre-image evaluation

  • 利用PASCAL物体检测挑战中的修改过的scheme版本进行单帧检测。
  • 一个检测系统需要输入一个图像并且为每个检测返回一个边界框或者一个分数或者一个置信度。这个系统应该可以执行多等级检测以及必要的NMS或者其他后期处理。
  • 评估应该在最后生成的被检测到的边界框中执行。
  • PASCAL估计:重叠区域必须超过50%:

  • 为了比较方法,通过变化检测置信度的阈值,我们画出了纵坐标miss rate,横坐标每张图像假正例(FPPI)的图像。对于某些任务,更倾向于使用查准-召回曲线,比如汽车应用,典型的已经有一个可接受的FPPI上限,并且独立于行人行人密度。
  • 引入ignore regions。这一区域不需要匹配,匹配上不算是TP,没有匹配上也不算FN。
  • 只有完整的标注框才能用来匹配,不是可见的标注框,甚至对于部分遮挡的行人。

Evaluation Results

  • Overall
  • Scale
  • Occlusion
  • Aspect ratio