MXNet深度循环神经网络----含有2个隐藏层的循环神经网络(程序)
《动手学深度学习》第六章 第9节的练习题,个人解答。
在深度学习应用里,我们通常会用到含有多个隐藏层的循环神经网络,也称作深度循环神经网络。下图演示了一个有 L L L个隐藏层的深度循环神经网络,每个隐藏状态不断传递至当前层的下一时间步和当前时间步的下一层。
![[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yeiSYb1A-1587711118081)(../img/deep-rnn.svg)]](https://i-blog.csdnimg.cn/blog_migrate/a78f6952c03cebe02e1fc61d28999086.png#pic_center)
具体来说,在时间步 t t t里,设小批量输入 X t ∈ R n × d \boldsymbol{X}_t \in \mathbb{R}^{n \times d} Xt∈Rn×d(样本数为 n n n,输入个数为 d d d),第 ℓ \ell ℓ隐藏层( ℓ = 1 , … , L \ell=1,\ldots,L ℓ=1,…,L)的隐藏状态为 H t ( ℓ ) ∈ R n × h \boldsymbol{H}_t^{(\ell)} \in \mathbb{R}^{n \times h} Ht(ℓ)∈Rn×h(隐藏单元个数为 h h h),输出层变量为 O t ∈ R n × q \boldsymbol{O}_t \in \mathbb{R}^{n \times q} Ot∈Rn×q(输出个数为 q q q),且隐藏层的激活函数为 ϕ \phi ϕ。第1隐藏层的隐藏状态和之前的计算一样:
H t ( 1 ) = ϕ ( X t W x h ( 1 ) + H t − 1 ( 1 ) W h h ( 1 ) + b h ( 1 ) ) , \boldsymbol{H}_t^{(1)} = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh}^{(1)} + \boldsymbol{H}_{t-1}^{(1)} \boldsymbol{W}_{hh}^{(1)} + \boldsymbol{b}_h^{(1)}), Ht(1)=ϕ(XtWxh(1)+Ht−1(1)Whh(1)+bh(1)),
其中权重 W x h ( 1 ) ∈ R d × h \boldsymbol{W}_{xh}^{(1)} \in \mathbb{R}^{d \times h}

本文深入探讨了深度循环神经网络的原理与实现,通过《动手学深度学习》一书的练习题,详细介绍了如何构建含有两个隐藏层的循环神经网络模型,并在实际任务中进行应用与分析。
最低0.47元/天 解锁文章
1521

被折叠的 条评论
为什么被折叠?



