深度学习论文笔记:Deep Residual Learning for Image Recognition

Abstract

  • 本文是何凯明大神的又一篇CVPR最佳论文。
  • 网络越深越难训练,所以我们提出一个residual learning framework从而减轻网络的训练,该网络比以前使用的网络要深得多。
  • 我们明确地将参考层的输入来作为学习残差函数,而不是学习无参考的函数(unreferenced functions)。
  • 我们提供全面的经验证据,表明这些残留网络更容易优化,并可以从显着增加的深度中获得准确性。
  • 这些残留网络的集合在ImageNet测试集上达到3.57%的误差。 该结果在ILSVRC 2015分类任务中荣获第一名。
  • 深度对于许多CV领域的任务都十分重要的。由于我们网络很深,我们在COCO对象检测数据集上获得了28%的相对改进。我们还荣获了ImageNet检测,ImageNet定位,COCO检测和COCO分割任务的第一名。

Introduction

  • 深层网络自然地将低/中/高层特征和分类器以端到端多层方式进行集成,并且特征的“级别”可以通过堆叠层数(深度)来丰富。网络的深度有着十分重要的作用。

  • 随着网络深度的增加,带来一个问题:学习更好的网络是否和堆叠更多的层一样简单?回答这个问题的障碍是:逐渐消失的梯度问题

  • 当较深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,精度饱和,然后迅速下降。这种下降不是由于过拟合,添加多层会导致更高的训练错误。

  • 从浅到深的一个解决方案:

    • 附加层:设置为“恒等”(identity)
    • 原始层:由一个已经学会的较浅模型复制得来。
    • 这种解决方案的存在表明,较深的模型不应该产生比较浅的模型更高的训练误差。至少具有相同的训练误差。
  • 优化难题:随着网络层数不断加深,求解器不能找到解决途径。

  • 为了解决这个问题,本文提出了深度残差学习框架

  • 平原网络

    H(x)是任意一种理想的映射

    平原网络希望第2层权重层能够与H(x)拟合

  • 残差网络

    H(x)是任意一种理想的映射

    残差网络希望第2类权重层能够与F(x)拟合使得H(x) = F(x) + x

  • F(x)是一个残差映射w.r.t 恒

    • 如果说恒等是理想,很容易将权重值设定为0;
    • 如果理想化映射更接近于恒等映射,便更容易发现微小波动。

  • 我们假设优化残差映射比优化原始的,无参考映射(unreferenced mapping)更容易。在极端情况下,如果一个identity mapping是最佳的,那么将残差推到零比通过一堆非线性层的identity mapping更容易。