- GRU结构相对于LSTM结构更加的简单,它在保证长期记忆性能的同时去除了一条记忆通道,并将三个门融合为两个,大大地减少了参数,显著提升了运算性能,缩短了时空成本,并在一定程度上防止了过拟合
- 动态计算图和静态计算图是深度学习框架中两种不同的计算图构建方式。
静态计算图先定义计算图的结构(如节点和边),然后再传入数据进行计算。计算图在运行前就已经固定,类似于编译型语言。
动态计算图在运行时动态构建计算图,每执行一行代码就实时生成对应的计算图结构,类似于解释型语言。
静态图适合追求极致性能的生产环境,而动态图更适合灵活的研究和开发。
- LSTM 虽然通过门控机制(输入门、遗忘门、输出门)在一定程度上缓解了梯度消失问题,能够比普通 RNN 更好地处理长距离依赖关系,但它并不能完全杜绝梯度消失和梯度爆炸问题,尤其是在处理超长序列时。此时截断式反向传播仍然起到显著作用,其通过将长序列截断成较短的子序列进行训练,减少计算量,并缓解梯度问题,使得模型得到有效训练和同时降低计算成本。
877

被折叠的 条评论
为什么被折叠?



