【机器学习/大模型/八股文 面经 (一)】

1. PPO算法中使用GAE的好处以及参数γ和λ的作用是什么?

参考答案

  • GAE(Generalized Advantage Estimation) 的优势在于通过指数加权多步TD误差,平衡优势估计的偏差与方差,提升策略优化的稳定性。
  • γ(折扣因子):控制未来奖励的衰减程度,值越大表示更关注长期收益。
  • λ(GAE衰减因子):调节多步优势估计的权重,λ=1时等价于蒙特卡洛估计(高方差低偏差),λ=0时退化为单步TD误差(低方差高偏差)。

2. PPO算法和DQN算法的区别是什么?

参考答案

  • PPO:基于策略梯度方法,直接优化策略网络,支持连续动作空间,通过重要性采样和Clip机制限制策略更新幅度。
  • DQN:基于值函数逼近,学习Q值网络,仅适用于离散动作空间&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值