深度学习论文笔记：Deep Residual Learning for Image Recognition

Mar 23, 2017

Abstract

本文是何凯明大神的又一篇CVPR最佳论文。
网络越深越难训练，所以我们提出一个residual learning framework从而减轻网络的训练，该网络比以前使用的网络要深得多。
我们明确地将参考层的输入来作为学习残差函数，而不是学习无参考的函数（unreferenced functions）。
我们提供全面的经验证据，表明这些残留网络更容易优化，并可以从显着增加的深度中获得准确性。
这些残留网络的集合在ImageNet测试集上达到3.57％的误差。该结果在ILSVRC 2015分类任务中荣获第一名。
深度对于许多CV领域的任务都十分重要的。由于我们网络很深，我们在COCO对象检测数据集上获得了28％的相对改进。我们还荣获了ImageNet检测，ImageNet定位，COCO检测和COCO分割任务的第一名。

Introduction

深层网络自然地将低/中/高层特征和分类器以端到端多层方式进行集成，并且特征的“级别”可以通过堆叠层数（深度）来丰富。网络的深度有着十分重要的作用。
随着网络深度的增加，带来一个问题：学习更好的网络是否和堆叠更多的层一样简单？回答这个问题的障碍是：逐渐消失的梯度问题。
当较深的网络能够开始收敛时，暴露了一个退化问题：随着网络深度的增加，精度饱和，然后迅速下降。这种下降不是由于过拟合，添加多层会导致更高的训练错误。
从浅到深的一个解决方案：
- 附加层：设置为“恒等”（identity）
- 原始层：由一个已经学会的较浅模型复制得来。
- 这种解决方案的存在表明，较深的模型不应该产生比较浅的模型更高的训练误差。至少具有相同的训练误差。
优化难题：随着网络层数不断加深，求解器不能找到解决途径。
为了解决这个问题，本文提出了深度残差学习框架。
平原网络：

H(x)是任意一种理想的映射

平原网络希望第2层权重层能够与H(x)拟合。
残差网络：

H(x)是任意一种理想的映射

残差网络希望第2类权重层能够与F(x)拟合使得H(x) = F(x) + x
F(x)是一个残差映射w.r.t 恒
- 如果说恒等是理想，很容易将权重值设定为0；
- 如果理想化映射更接近于恒等映射，便更容易发现微小波动。
我们假设优化残差映射比优化原始的，无参考映射(unreferenced mapping)更容易。在极端情况下，如果一个identity mapping是最佳的，那么将残差推到零比通过一堆非线性层的identity mapping更容易。