笔记参考和图片来源@hanbingtao：零基础入门深度学习(5) - 循环神经网络

循环神经网络

基本循环神经网络

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image.png)

左图是一个简单的循环神经网络(Recurrent Neural Network），由输入层、一个隐藏层和一个输出层组成。

如果将有 $W$ 的带箭头的圈去掉，它就变成了最普通的全连接神经网络。 $x$ 是一个向量，代表输入层的值。 $s$ 是一个向量，代表隐藏层的值。 $U$ 是输入层到隐藏层的权重矩阵。 $o$ 也是一个向量，代表输出层的值。 $V$ 是隐藏层到输出层的权重矩阵。

循环神经网络的隐藏层的值 $s$ 不仅取决于当前这次的输入 $x$ ，还取决于上一次隐藏层的值 $s$ 。权重矩阵 $W$ 就是隐藏层上一次的值作为这一次的输入的权重。

将上面的图展开，也可以画成下面的样子：

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 1.png)

可以看到，这个网络在 $t$ 时刻接收到输入 $x_t$ 之后，隐藏层的值是 $s_t$ ,输出值是 $o_t$ .此外， $s_t$ 的值还取决于 $s_{t-1}$ .

$\begin{align}o_t&=g(Vs_t)\tag{式1}\\s_t&=f(Ux_t+Ws_{t-1})\tag{式2}\end{align}$

式1是输出层的计算公式。输出层是一个全连接层，其中的每个节点都和隐藏层的每个节点相连。 $V$ 是输出层的权重矩阵， $g$ 是激活函数。

式2是隐藏层的计算公式。它是循环层。 $U$ 是输入 $x$ 的权重矩阵， $W$ 是上一次的值 $s_{t-1}$ 作为这一次输入的权重矩阵， $f$ 是激活函数。

循环层和全连接层的区别就是循环层多了一个权重矩阵 $W$ 。

如果将式2反复代入式1，可以得到：

$o_t=Vf(Ux_t+Wf(Ux_{t-1}+Wf(Ux _{t-2}+\cdots)))$

可以看出，循环神经网络的输出值 $o_t$ ,是受前面历次输入值影响的。因此循环神经网络可以往前看任意多个输入值。

双向神经网络

对于语言模型来说，很多时候还需要看下文。此时基本循环神经网络无法进行建模，我们需要双向循环神经网络，如图。

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 2.png)

以 $y_2$ 为例：

$y_2=g(VA_2+V'A_2')$

$A_2$ 和 $A_2'$ 则分别计算：

$\begin{aligned}A_2&=f(WA_1+Ux_2)\\A_2'&=f(W'A_3'+U'x_2)\end{aligned}$

可以看出，正向计算时，隐藏层的值 $s_t$ 与 $s_{t-1}$ 有关；反向计算时，隐藏层的值 $s_t'$ 与 $s_{t+1}'$ 有关。最终的输出取决于正向和反向计算的加和。

$\begin{align}o_t&=g(Vs_t+V's_t')\\s_t&=f(Ux_t+Ws_{t-1})\\s_t'&=f(U'x_t+W's_{t+1}')\end{align}$

其中，正向计算(2)和反向计算(3)不共享权重，即 $U$ 和 $U'$ , $W$ 和 $W'$ 都是不同的权重矩阵。

深度循环神经网络

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 3.png)

上面的循环神经网络只有一个隐藏层，也可以堆叠两个以上的隐藏层，如左图所示。这样就得到了深度循环神经网络。

将第 $i$ 个隐藏层的值表示为 $s_t^{(i)}$ 、 $s_t'^{(i)}$ ,则深度循环神经网络的计算可表示为：

$\begin{align}o_t&=g(V^{(i)}s_t^{(i)}+V'^{(i)}s_t'^{(i)})\\s_t^{(i)}&=f(U^{(i)}x_t^{(i-1)}+W^{(i)}s_{t-1})\\s_t'^{(i)}&=f(U'^{(i-1)}x_t+W'^{(i)}s_{t+1}')\end{align}$

循环神经网络的训练

循环神经网络的训练算法：BPTT

BPTT算法是针对循环层的训练算法，其基本原理和BP相同，也包含三个步骤：

前向计算每个神经元的输出值
反向传播每个神经元的误差项 $\delta_j$ ，即误差函数 $E_d$ 对神经元 $j$ 的加权输入 $net_j$ 的偏导数
计算每个权重的梯度
用随机梯度下降算法更新权重

循环层如下图所示：

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 4.png)

前向计算

$s_t=f(Ux_t+Ws_{t-1})$

假设输入向量 $x$ 的维度是 $m$ ，输出向量 $s$ 的维度是 $n$ ，则矩阵 $U$ 的维度是 $n\times m$ ,矩阵 $W$ 的维度是 $n\times n$ .

上面的式子便可以展开成以下形式：

$\begin{bmatrix}s^t_1\\s^t_2\\\vdots\\s^t_n\end{bmatrix}=f(\begin{bmatrix}u_{11}&u_{12}\quad\cdots &u_{1m}\\u_{21}&u_{22}\quad\cdots &u_{2m}\\\vdots&\qquad\ddots&\vdots\\u_{n1}&u_{n2}\quad\cdots& u_{nm}\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_m\end{bmatrix}+\begin{bmatrix}\omega_{11}&\omega_{12}\quad\cdots &\omega_{1n}\\\omega_{21}&\omega_{22}\quad\cdots &\omega_{2n}\\\vdots&\qquad\ddots&\vdots\\\omega_{n1}&\omega_{n2}\quad\cdots& \omega_{nn}\end{bmatrix}\begin{bmatrix}s^{t-1}_1\\s^{t-1}_2\\\vdots\\s^{t-1}_n\end{bmatrix})$

误差项的计算

BTPP算法将第 $l$ 层 $t$ 时刻的误差项 $\delta^l_t$ 值沿两个方向传播，一个方向是传递到上一层网络，得到 $\delta_t^{l-1}$ ,这部分只和权重矩阵 $U$ 有关；另一个方向是将其沿时间线传递到初始 $t_1$ 时刻，得到 $\delta_1^l$
，这部分只和权重矩阵 $W$
有关。

用向量 $net_t$

表示神经元在 $t$
时刻的加权输入，因为：

$\begin{aligned}net_t&=Ux_t+Ws_{t-1}\\s_{t-1}&=f(net_{t-1})\end{aligned}$

因此：

$\frac{\partial net_t}{\partial net_{t-1}}=\frac{\partial net_t}{\partial s_{t-1}}\frac{\partial s_{t-1}}{\partial net_{t-1}}$

用 $a$ 表示列向量，用 $a^T$ 表示行向量。上式第一项是向量函数对向量的求导，其结果为雅可比矩阵

$\begin{aligned}\frac{\partial net_t}{\partial s_{t-1}}&=\begin{bmatrix}\frac{\partial net_1^t}{\partial s_1^{t-1}}&\frac{\partial net_1^t}{\partial s_2^{t-1}}&\cdots&\frac{\partial net_1^t}{\partial s_n^{t-1}}\\\frac{\partial net_2^t}{\partial s_1^{t-1}}&\frac{\partial net_2^t}{\partial s_2^{t-1}}&\cdots&\frac{\partial net_2^t}{\partial s_n^{t-1}}\\\vdots&\vdots&\ddots&\vdots\\\frac{\partial net_n^t}{\partial s_1^{t-1}}&\frac{\partial net_n^t}{\partial s_2^{t-1}}&\cdots&\frac{\partial net_n^t}{\partial s_n^{t-1}}\end{bmatrix}\\&=\begin{bmatrix}\omega_{11}&\omega_{12}&\cdots&\omega_{1n}\\\omega_{21}&\omega_{22}&\cdots&\omega_{2n}\\\vdots&\vdots&\ddots&\vdots\\\omega_{n1}&\omega_{n2}&\cdots&\omega_{nn}\end{bmatrix}\\&=W\end{aligned}$

$\begin{aligned} \frac{\partial {s}_{t-1}}{\partial {net}_{t-1}} &= \begin{bmatrix} \frac{\partial s^{t-1}_1}{\partial net^{t-1}_1} & \frac{\partial s^{t-1}_1}{\partial net^{t-1}_2} & \cdots & \frac{\partial s^{t-1}_1}{\partial net^{t-1}_n} \\ \frac{\partial s^{t-1}_2}{\partial net^{t-1}_1} & \frac{\partial s^{t-1}_2}{\partial net^{t-1}_2} & \cdots & \frac{\partial s^{t-1}_2}{\partial net^{t-1}_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial s^{t-1}_n}{\partial net^{t-1}_1} & \frac{\partial s^{t-1}_n}{\partial net^{t-1}_2} & \cdots & \frac{\partial s^{t-1}_n}{\partial net^{t-1}_n} \end{bmatrix} \\ &= \begin{bmatrix} f'(net^{t-1}_1) & 0 & \cdots & 0 \\ 0 & f'(net^{t-1}_2) & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & f'(net^{t-1}_n) \end{bmatrix} \\[10pt] &= \mathrm{diag}\left[f'(net^{t-1})\right] \end{aligned}$

其中 $\text{diag}[a]$ 表示根据向量 $a$ 创建的一个对角矩阵。

最后，将两项合在一起，可得：

$\begin{aligned}\frac{\partial {net}_t}{\partial {net}_{t-1}} &= \frac{\partial {net}_t}{\partial {s}_{t-1}} \cdot \frac{\partial {s}_{t-1}}{\partial {net}_{t-1}} \\[5pt]&= W \cdot \mathrm{diag}\left[f'(net_{t-1})\right] \\&= \begin{bmatrix} \omega_{11} f'(net^{t-1}_1) & \omega_{12} f'(net^{t-1}_2) & \cdots & \omega_{1n} f'(net^{t-1}_n) \\ \omega_{21} f'(net^{t-1}_1) & \omega_{22} f'(net^{t-1}_2) & \cdots & \omega_{2n} f'(net^{t-1}_n) \\ \vdots & \vdots & \ddots & \vdots \\ \omega_{n1} f'(net^{t-1}_1) & \omega_{n2} f'(net^{t-1}_2) & \cdots & \omega_{nn} f'(net^{t-1}_n) \end{bmatrix} \end{aligned}$

上式描述了将 $\delta$ 沿时间向前传递一个时刻的规律。由此可得任意时刻 $k$ 的误差项 $\delta_k$ ：

$\begin{aligned}\delta_k^T &= \frac{\partial E}{\partial \mathbf{net}_k} \\&= \frac{\partial E}{\partial \mathbf{net}_t} \cdot \frac{\partial \mathbf{net}_t}{\partial \mathbf{net}_k} \\&= \frac{\partial E}{\partial \mathbf{net}_t} \cdot \frac{\partial \mathbf{net}_t}{\partial \mathbf{net}_{t-1}} \cdot \frac{\partial \mathbf{net}_{t-1}}{\partial \mathbf{net}_{t-2}} \cdots \frac{\partial \mathbf{net}_{k+1}}{\partial \mathbf{net}_k} \\&= W \, \mathrm{diag}\left[f'(\mathbf{net}_{t-1})\right] \cdot W \, \mathrm{diag}\left[f'(\mathbf{net}_{t-2})\right] \cdots W \, \mathrm{diag}\left[f'(\mathbf{net}_k)\right] \cdot \delta_t^l \\&= \delta_t^T \cdot \prod_{i=k}^{t-1} W \, \mathrm{diag}\left[f'(\mathbf{net}_i)\right]\end{aligned}$

这就是将误差项沿时间反向传播的算法。

循环层的加权输入

$net^l$ 与上一层的**加权输入 $net^{l-1}$ **的关系如下：

$net_t^l=Ua_t^{l-1}+Ws_{t-1}\\a_{t}^{l-1}=f^{l-1}(net_t^{l-1})$

其中 $net_t^l$ 是第 $l$ 层神经元的加权输入（假设第 $l$ 层是循环层）； $net_t^{l-1}$ 是第 $l-1$ 层的加权输入； $a_t^{l-1}$ 是第 $l-1$ 层神经元的输出； $f^{l-1}$ 是第 $l-1$ 层的激活函数。

$\frac{\partial \mathbf{net}_t^l}{\partial \mathbf{net}_t^{l-1}} = \frac{\partial \mathbf{net}_t^l}{\partial \mathbf{a}_t^{l-1}} \cdot \frac{\partial \mathbf{a}_t^{l-1}}{\partial \mathbf{net}_t^{l-1}} = \mathbf{U} \cdot \mathrm{diag}\left[f'^{l-1}(\mathbf{net}_t^{l-1})\right]$

因此，

$\begin{aligned}(\delta_t^{l-1})^T &= \frac{\partial E}{\partial \mathbf{net}_t^{l-1}} \\&= \frac{\partial E}{\partial \mathbf{net}_t^l} \cdot \frac{\partial \mathbf{net}_t^l}{\partial \mathbf{net}_t^{l-1}} \\&= (\delta_t^l)^T \mathbf{U} \, \mathrm{diag}\left[f'^{l-1}(\mathbf{net}_t^{l-1})\right]\end{aligned}$

以上就是将误差项传递到上一层的算法。

权重梯度的计算

最后一步是计算每个权重的梯度。首先，计算误差函数 $E$ 对权重矩阵 $W$ 的梯度 $\frac {\partial E}{\partial W}$

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 5.png)

上图是目前为止前两步中已经计算得到的量，包括每个时刻 $t$ 循环层输出的值 $s_t$ ,以及误差项 $\delta_t$ 。

权重矩阵在 $t$ 时刻的梯度：

$\frac{\partial E}{\partial W}=\frac{\partial E}{\partial net_t}\cdot\frac{\partial net_t}{\partial W}$

其中， $\frac{\partial E}{\partial net_t}=\delta_t$ ； $\frac{\partial net_t}{\partial W}=(s_{t-1})^T$ ，因为 $net_t=Ws_{t-1}+Ux_t+b$

因此，

$\begin{aligned}\frac{\partial E}{\partial W}&=\frac{\partial E}{\partial net_t}\cdot\frac{\partial net_t}{\partial W}\\&=\delta_t\cdot s_{t-1}^T\\&= \begin{bmatrix} \delta_1^t s_1^{t-1} & \delta_1^t s_2^{t-1} & \cdots & \delta_1^t s_n^{t-1} \\ \delta_2^t s_1^{t-1} & \delta_2^t s_2^{t-1} & \cdots & \delta_2^t s_n^{t-1} \\ \vdots & \vdots & \ddots & \vdots \\ \delta_n^t s_1^{t-1} & \delta_n^t s_2^{t-1} & \cdots & \delta_n^t s_n^{t-1} \end{bmatrix} \end{aligned}$

其中， $\delta_i^t$ 表示 $t$ 时刻误差项向量的第 $i$ 个分量； $s_i^{t-1}$ 表示 $t-1$ 时刻循环层第 $i$ 个神经元的输出值。

至此，已经求得权重矩阵 $W$ 在 $t$ 时刻的梯度 $\nabla_{W_t}E$ ，最终梯度 $\nabla_WE$ 是各个时刻的梯度之和：

$\nabla_WE=\sum_{i=1}^{t}\nabla_{W_i}E$

上式即为循环层权重矩阵 $W$ 的梯度公式。

同权重矩阵 $W$ 类似，可以求得权重矩阵 $U$ 的计算方法。

$\begin{aligned}\nabla_{U_t} E &=\begin{bmatrix}\delta_1^t x_1^t & \delta_1^t x_2^t & \cdots & \delta_1^t x_m^t \\\delta_2^t x_1^t & \delta_2^t x_2^t & \cdots & \delta_2^t x_m^t \\\vdots & \vdots & \ddots & \vdots \\\delta_n^t x_1^t & \delta_n^t x_2^t & \cdots & \delta_n^t x_m^t\end{bmatrix}\\\nabla_UE&=\sum_{i=1}^t\nabla_{U_i}E\end{aligned}$

RNN的梯度爆炸和消失问题

前面介绍的几种RNN并不能很好的处理较长的序列，主要原因是RNN在训练中很容易发生梯度爆炸和梯度消失问题，这导致训练时梯度不能在较长序列中一直传递下去，从而使RNN无法捕捉到长距离的影响。

原因如下式：

$\delta_k^T = \delta_t^T \cdot \prod_{i=k}^{t-1} W \cdot \mathrm{diag}\left[ f'(net_i) \right]\\ \|\delta_k^T\| \leq \|\delta_t^T\| \cdot \prod_{i=k}^{t-1} \|W\| \cdot \left\| \mathrm{diag}(f'(net_i)) \right\| \\ \|\delta_k^T\| \leq \|\delta_t^T\| \cdot (\beta_W \beta_f)^{t-k}$

上式中 $\beta$ 定义为矩阵模的上界。 $\|\delta_t^T\| \cdot (\beta_W \beta_f)^{t-k}$ 是一个指数函数，如果 $t-k$ 很大，会导致误差项增长或缩小的非常快（取决于 $\beta$ 大于还是小于 $1$ ），这样就会导致相应的梯度爆炸和梯度消失问题。

通常梯度爆炸问题更容易处理，因为梯度爆炸时程序会收到NAN错误。可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

梯度消失更难检测，也更难处理。有三种方法可以应对梯度消失问题：

合理的初始化权重值，使每个神经元尽可能不要取极大或极小值，以避开梯度消失的区域。
使用 $\text {ReLU}$ 函数代替 $\text{Sigmoid}$ 和 $\tanh$ 作为激活函数。
使用其它结构的RNN，如长短时记忆网络（LSTM）和GRU。

RNN应用举例:基于RNN的语言模型

首先把词依次输入到RNN中，每输入一个词，RNN就输出截止到目前为止，下一个最可能的词。如，依次输入：

我昨天上学迟到了

RNN的输出如下图所示：

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 6.png)

其中s和e是两个特殊词，分别表示一个序列的开始和结束。

向量化

为了让语言模型能处理词语，必须将其表达为向量的形式。神经网络的输入是词，按照下面的步骤可将其向量化：

建立一个包含所有词的词典，每个词在词典里面有一个唯一的编号。
任意一个词都可以用一个N维one-hot向量来表示。N是词点中词的个数。

如下图所示。

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 7.png)

神经网络的输出也是一个N维向量，向量中每个元素对应词点钟相应的词是下一个词的概率。

如下图所示。

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 8.png)

Softmax层

将softmax层作为神经网络的输出层就能让神经网络输出概率。以下是softmax函数的定义：

$g(z_i)=\frac{e^{z_i}}{\sum_ke^{z_k}}$

![image.png](/Users/jbx/Downloads/私人与共享 3/循环神经网络 1e4b9196b5df80ae9824cbfbbd7e3b61/image 9.png)

以 $y_1$ 的计算为例：

$\begin{aligned}y_1&=\frac{e^1}{e^1+e^2+e^3+e^4}\\&=0.03\end{aligned}$

这样，输出向量 $y$ 就有如下特征：

每一项是取值为 $0～1$ 的正数
所有项的总和是1

这样就可以将这些输出看作是概率。

语言模型的训练

可以用监督学习的方法对语言模型进行训练。首先准备训练数据集，获取输入-标签对：

输入	标签
s	我
我	昨天
昨天	上学
上学	迟到
迟到	了
了	e

然后按照上面的向量化方法对输入 $x$ 和标签 $y$ 进行向量化。最后，使用交叉熵误差函数作为优化目标，对模型进行优化。

交叉熵误差

当神经网络的输出层是softmax层时，一般选用交叉熵误差函数作为误差函数 $E$ 。其定义如下：

$L(y,o)=-\frac1N\sum_{n\in N}y_n\log o_n$

上式中， $N$ 是训练样本的个数，向量 $y_n$ 是样本的标记，向量 $o_n$ 是网络的输出。标记 $y_n$ 是一个one-hot向量。

假设 $y_1=[1,0,0,0],o=[0.03,0.09,0.24,0.64]$ ，那么交叉熵误差为：

$\begin{aligned}L(y,o)&=-\frac1N\sum_{n\in N}y_n\log o_n\\&=-y_1\log o_1\\&=-(1*\log 0.03+0*\cdots)\\&=3.51\end{aligned}$

也可以选择其他函数作为误差函数，如MSE。但是对概率进行建模时，更常见选择交叉熵误差函数。