TRPO中的Hessian-Free Optimization(两次梯度反向传播计算海森矩阵)

1.优点

  • 无需显式构建和存储海森矩阵,大大降低了计算和存储成本。在深度学习中的大型神经网络,参数数量可能达到数百万甚至更多,避免显式计算海森矩阵可以使训练过程在计算资源有限的情况下仍然能够高效进行。

  • 通过两次梯度反向传播计算海森矩阵向量积可以很好地利用Pytorch等框架的自动微分机制,使得计算过程更加便捷和准确。

2.推导

        是平均KL散度的海森矩阵。

        首先,计算关于的梯度

        然后计算的点积

        最后计算关于的梯度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值