Principles of training multi-layer neural network using backpropagation[翻译]

这篇文章是介绍神经网络中的训练方法-BP算法,算是一篇比较经典的文章,最近又自己用SIMD指令集重写一个小型的神经网络,借此机会再好好巩固一下BP算法。

原文链接

使用反向传播算法训练多层神经网络的原理

本项目使用BP算法来介绍多层神经网络的训练过程,下图展示了一个包含三层神经元的网络,具有两个输入,一个输出。

每个神经元有两个操作组成,一个是将系数(包括权重和偏置)和输入信号进行叠加,第二个是引入非线性,我们一般称之为神经元激活函数,其中 $e$ 就是叠加信号,$y=f(e)$ 为非线性部分的输出,$y$也被称为神经元的输出。

为了训练神经网络,我们需要训练集。训练集包含输入信号 $x_1$ 和 $x_2$ 以及它们对应的期望输出 $z$,网络的训练是一个迭代的过程。在每个迭代过程,都会根据当前的训练数据对神经元的系数进行调整,调整的规则如下:每一轮的训练都是从训练集的两个输入开始,经过一系列计算,我们可以得到每个神经元的输出。下图说明了信号是如何在网络中传播的,符号 $W_{(xm)n}$ 表示网络的输入 $x_m$ 和输入层的神经元 $n$ 之间的权重,符号 $y_n$ 表示神经元 $n$ 的输出。

紧接着,信号传递到隐藏层,符号 $W_{mn}$ 表示神经元 $m$ 的输出和下一层的额神经元 $n$ 之间的权重。

信号到达了输出层。

接下来,网络的输出信号 $y$ 会和训练集给出的期望输出进行对比,它们之间的差异被称为输出层的误差 $\delta$。

直接计算中间层的神经元的误差是不现实的,因为它们的输出值我们目前还不知道。很久以来都没有有效的方法去训练多层神经网络,直到80年代中期,反向传播算法才被提出。它的思路是将误差信号 $\delta$ (同一次迭代中)反向传播回所有神经元。

用于反向传播的系数 $W_{mn}$ 和正向计算时候的值一样(它们是共用的),只是信号的方向变了(之前是信号是从前一个神经元到下一个神经元,现在的误差信号是从下一个神经元到前一个神经元,所以才称为“反向传播”),这种操作应用与全部的神经网络层。

当所有神经元的误差都被计算后,它们之间的权重系数就会被更新。公式中的 $df(e)/de$ 表示激活函数的导数。

系数 $\eta$ 用来调节网络训练的速度,目前有很多方法去调节这个参数,第一种方法是在网络训练刚开始时,使用较大的 $\eta$,随着训练的进行,再逐渐减小。第二种相对复杂一点,刚开始训练时,使用较小的 $\eta$,随着训练进行,逐渐增大 $\eta$,然后再逐渐减小 $\eta$ 直到训练结束。