机器学习基础（三）循环神经网络

背景（标准神经网络的局限）

对于序列数据（文本，语音等），使用标准神经网络存在以下问题：

a<n>表示第n时间步最后一层隐藏层的输出，同时也是n+1时间步输入的一部分

y-hat<n>表示第n时间步的输出（通过与a<n>全连接得到）

Waa表示a<n>对第n+1时间步输入的权重

Wax表示x<n>对第n时间步输入的权重

每个时间步是相同的网络（即同样的参数），输入数据序列有多大则有几个时间步

Rt（重置门）：基于上个状态和当前输入的sigmoid输出

Zt（更新门）：基于上个状态和当前输入的sigmoid输出

Ht—Candidate（候选隐状态）：基于上个状态，当前输入和重置门的当前状态的中间值

Ht（隐状态）：基于上个状态，当前候选隐状态，更新门得到的当前状态

重置门有助于捕获序列中的短期依赖关系；更新门有助于捕获序列中的长期依赖关系
通过门控机制实现历史信息的选择性更新，使得 长期依赖 的信息得以保留并影响模型输出，以及缓解了梯度消失（狭义理解为优化了数据流向，即乘的小梯度变少了）

It（输入门）：基于上个状态和当前输入的sigmoid输出

Ft（遗忘门）：基于上个状态和当前输入的sigmoid输出

Ot（输出门）：基于上个状态和当前输入的sigmoid输出

Ct—Candidate（候选隐记忆）：基于上个状态和当前输入的当前状态的中间值

Ct（当前记忆）：基于遗忘门，输入门和当前输入的当前状态的中间值

Ht（隐状态）：基于输出门，当前记忆的tanh输出