整体架构图:
Traditional RNNs suffer from two difficluties:
1. 长距离依赖 2. 梯度爆炸
ps: 解释softmax函数, 以下部分均搬自知乎(https://www.zhihu.com/question/23765351)
*(一)看名字就知道了,就是如果某一个zj大过其他z,那这个映射的分量就逼近于1,其他就逼近于0,主要应用就是多分类,sigmoid函数只能分两类,而softmax能分多类,softmax是sigmoid的扩展。
* (二)
ps2: Sigmoid 函数 将值映射到0-1之间