动手学深度学习Task2笔记

什么是循环神经网络
下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量 $H$ ，用 $H_t$ 表示 $H$ 在时间步 $t$ 的值。 $H_t$ 的计算基于 $X_t$ 和 $H_{t-1}$ ，可以认为 $H_t$ 记录了到当前字符为止的序列信息，利用 $H_t$ 对序列的下一个字符进行预测。

循环神经网络构造
$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h)$
由于引入了 $\boldsymbol{H}_{t-1} \boldsymbol{W}_{hh}$ ， $H_{t}$ 能够捕捉截至当前时间步的序列的历史信息，就像是神经网络当前时间步的状态或记忆一样。由于 $H_{t}$ 的计算基于 $H_{t-1}$ ，上式的计算是循环的，使用循环计算的网络即循环神经网络，在时间步 $t$ ，输出层的输出为：
$\boldsymbol{O}_t = \boldsymbol{H}_t \boldsymbol{W}_{hq} + \boldsymbol{b}_q$
one-hot向量
假设词典大小是N，每次字符对应一个从0到N-1的唯一的索引，则该字符的向量是一个长度为N的向量，若字符的索引是i，则该向量的第i个位置为1，其他位置为0。
裁剪梯度
循环神经网络中较容易出现梯度衰减或梯度爆炸，这会导致网络几乎无法训练。裁剪梯度（clip gradient）是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 $g$ ，并设裁剪的阈值是 $\theta$ 。裁剪后的梯度
$\min\left(\frac{\theta}{\|\boldsymbol{g}\|}, 1\right)\boldsymbol{g}$
GRU⻔控循环神经⽹络
RNN存在的问题：梯度较容易出现衰减或爆炸
⻔控循环神经⽹络：捕捉时间序列中时间步距离较⼤的依赖关系