ResNet：使用残差连接来训练深层 CNN 模型的架构。

AI头条 2024-07-06 13:07:15 浏览次

背景

深度卷积神经网络 (CNN) 在图像识别、自然语言处理和计算机视觉等领域取得了突破性的进展。随着网络层数的增加，训练深层 CNN 模型变得越来越具有挑战性。原因之一是梯度消失问题，当反向传播过程中的梯度随着网络深度的增加而减小或消失时就会发生这种情况。这会导致网络前层的权重更新缓慢，而网络后层的权重更新迅速，这使得模型难以收敛。

残差连接

ResNet（残差网络）由 He et al. 在 2016 年提出，旨在解决梯度消失问题。ResNet 中的关键思想是使用残差连接，即跳过连接。这些连接将网络层的输出直接连接到后续层的输入，如图 1 所示。

残差连接允许梯度直接从网络的早期层流向网络的后期层，从而减轻了梯度消失问题。这使得模型能够更有效地学习更深层的特征表示。

ResNet 的架构

ResNet 模型通常由一系列残差块叠加而成。每个残差块都包含两个或三个卷积层，以及一个残差连接。残差连接的目的是将输入添加到块的输出中，如公式 1 所示：y = F(x) + x其中：`x` 是块的输入`y` 是块的输出`F` 是块的卷积操作ResNet 模型的深度通常由它包含的残差块的数量来定义。例如，ResNet-50 模型包含 50 个残差块，而 ResNet-152 模型包含 152 个残差块。