3.2 神经网络计算_深度学习500问：AI工程师面试宝典-QQ阅读男频历史网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

3.2　神经网络计算

神经网络计算主要有前向传播和反向传播，本节将通过一些实例介绍具体计算过程。

3.2.1　前向传播和反向传播

前向传播（Forward Propagation，FP）作用于每一层的输入，通过逐层计算得到输出结果。

反向传播（Backward Propagation，BP）作用于网络的输出，通过计算梯度由深到浅更新网络参数。

接下来参照图示来理解其计算过程。

前向传播示意图如图3-8所示。

图3-8　前向传播示意图

假设上一层的i，j，k，…等节点与本层的节点w有连接，那么节点w的值怎么计算呢？就是通过上一层的i，j，k，…等节点及其对应的连接权重进行加权和运算，其结果再加上一个偏置项（图中省略了），然后再通过一个非线性函数（即激活函数），如Relu、sigmoid等，最后得到的结果就是本层结点w的输出。

最终不断地通过这种方法一层层地运算，得到输出层结果。

反向传播示意图如图3-9所示。

图3-9　反向传播示意图

以分类为例，由于前向传播最终得到的结果，最终总是有误差的，那么怎么减少误差呢？当前应用广泛的一个算法就是梯度下降算法，但是求梯度就要求偏导数，下面以图中字母为例讲解一下。

假设最终误差为E且输出层的激活函数为线性激活函数，那么E对于输出节点yl的偏导数是yl-tl，其中tl是真实值，是指上面提到的激活函数，zl是上面提到的加权和，那么这一层的E对于zl的偏导数为。同理，下一层也这么计算，只不过计算方法变了，梯度值一直反向传播到输入层，最后有。然后调整反向传播过程中的权重，再不断进行前向传播和反向传播，最终得到一个比较好的结果。

3.2.2　如何计算神经网络的输出

神经网络输出计算示意图如图3-10所示。

图3-10　神经网络输出计算示意图

如上图所示，输入层有3个节点，编号依次为1、2、3；隐含层有4个节点，编号依次为4、5、6、7；最后输出层的2个节点编号为8、9。比如，隐含层的节点4，它和输入层的3个节点1、2、3之间都有连接，其连接上的权重分别为w41、w42、w43。

为了计算节点4的输出值，必须先得到其所有上游节点（也就是节点1、2、3）的输出值。节点1、2、3是输入层的节点，所以，他们的输出值就是输入向量本身。按照图3-10画出的对应关系，可以看到节点1、2、3的输出值分别是x1、x2、x3。

其中w4b是节点4的偏置项。

同样，可以继续计算出节点5、6、7的输出值a5、a6、a7。

计算输出层的节点8的输出值y1：

其中w8b是节点8的偏置项。

同理，我们还可以计算出y2。这里我们也看到，输出向量的维度和输出层神经元个数相同。

3.2.3　如何计算卷积神经网络输出值

假设有一个5×5的图像，使用一个3×3的滤波器（Filter）进行卷积，想得到一个3×3的特征图，如图3-11所示。

图3-11　待计算图像和卷积核

假设xi,j表示图像第i行第j列元素。wm,n表示滤波器第m行第n列权重。wb表示滤波器的偏置项。ai,j表示特征图第i行第j列元素。f表示激活函数，这里以Relu函数为例。

卷积计算公式如下：

当步长为1时，计算特征图元素a0,0：

其计算过程如图3-12所示。

图3-12　当步长为1时，特征图元素a0,0过程图示

以此类推，计算出全部的特征图，结果如图3-13所示。

图3-13　当步长为1时，全部的特征图计算结果

当步长为2时，特征图计算如图3-14所示。

图3-14　当步长为2时，全部的特征图计算结果

注：图像大小、步长和卷积后的特征图大小是有关系的。它们满足下面的关系：

其中，W2是卷积后特征图的宽度；W1是卷积前图像的宽度；F是滤波器的宽度；P是Zero Padding的数量，Zero Padding是指在原始图像周围补几圈0，如果P的值是1，那么就补1圈0；S是步长；H2是卷积后特征图的高度；H1是卷积前图像的宽度。

举例：假设图像宽度W1=5，滤波器的宽度F=3，Zero Padding的数量P=0，步长S=2，卷积后特征图的宽度W2为：

说明特征图宽度是2。同样，我们也可以计算出特征图高度也是2。

如果卷积前的图像深度为D，那么相应的滤波器的深度也必须为D。深度大于1的卷积计算公式为：

其中，D是深度；F是滤波器的大小；wd,m,n表示滤波器的第d层第m行第n列权重；ad,i,j表示特征图的第d层第i行第j列像素。

每个卷积层可以有多个滤波器。每个滤波器和原始图像进行卷积后，都可以得到一个特征图。卷积后特征图的深度（个数）和卷积层的滤波器个数相同。图3-15显示了包含两个滤波器的卷积层的计算示意图。输入为7×7×3，经过两个3×3×3滤波器的卷积（步长为2），得到了3×3×2的输出特征图。图中的Zero Padding是1，也就是在输入元素的周围补了一圈0。

以上就是卷积层的计算方法。这里面体现了局部连接和权重共享：每层神经元只和上一层的部分神经元相连（卷积计算规则），且滤波器的权重对于上一层所有神经元都是一样的。对于包含两个3×3×3的滤波器的卷积层来说，其参数数量仅有（3×3×3+1）×2=56个，且参数数量与上一层神经元个数无关。与全连接神经网络相比，其参数数量大大减少了。