Abstract
- 本文是何凯明大神的又一篇CVPR最佳论文。
- 网络越深越难训练,所以我们提出一个residual learning framework从而减轻网络的训练,该网络比以前使用的网络要深得多。
- 我们明确地将参考层的输入来作为学习残差函数,而不是学习无参考的函数(unreferenced functions)。
- 我们提供全面的经验证据,表明这些残留网络更容易优化,并可以从显着增加的深度中获得准确性。
- 这些残留网络的集合在ImageNet测试集上达到3.57%的误差。 该结果在ILSVRC 2015分类任务中荣获第一名。
- 深度对于许多CV领域的任务都十分重要的。由于我们网络很深,我们在COCO对象检测数据集上获得了28%的相对改进。我们还荣获了ImageNet检测,ImageNet定位,COCO检测和COCO分割任务的第一名。
Introduction
深层网络自然地将低/中/高层特征和分类器以端到端多层方式进行集成,并且特征的“级别”可以通过堆叠层数(深度)来丰富。网络的深度有着十分重要的作用。
随着网络深度的增加,带来一个问题:学习更好的网络是否和堆叠更多的层一样简单?回答这个问题的障碍是:逐渐消失的梯度问题。
当较深的网络能够开始收敛时,暴露了一个退化问题:随着网络深度的增加,精度饱和,然后迅速下降。这种下降不是由于过拟合,添加多层会导致更高的训练错误。
从浅到深的一个解决方案:
- 附加层:设置为“恒等”(identity)
- 原始层:由一个已经学会的较浅模型复制得来。
- 这种解决方案的存在表明,较深的模型不应该产生比较浅的模型更高的训练误差。至少具有相同的训练误差。
优化难题:随着网络层数不断加深,求解器不能找到解决途径。
为了解决这个问题,本文提出了深度残差学习框架。
平原网络:
H(x)是任意一种理想的映射
平原网络希望第2层权重层能够与H(x)拟合。
残差网络:
H(x)是任意一种理想的映射
残差网络希望第2类权重层能够与F(x)拟合使得H(x) = F(x) + x
F(x)是一个残差映射w.r.t 恒
- 如果说恒等是理想,很容易将权重值设定为0;
- 如果理想化映射更接近于恒等映射,便更容易发现微小波动。
我们假设优化残差映射比优化原始的,无参考映射(unreferenced mapping)更容易。在极端情况下,如果一个identity mapping是最佳的,那么将残差推到零比通过一堆非线性层的identity mapping更容易。