
强化学习
文章平均质量分 87
ZHAOCHENHAO-
Just for fun!
展开
-
PPO算法损失函数的设计
在讲解 PPO(Proximal Policy Optimization) 算法的优化目标之前,我们先用一个贴近生活的例子来类比它的核心思想,看看为什么要这样设计,以及它解决了什么问题。原创 2024-12-31 15:57:48 · 944 阅读 · 0 评论 -
PPO算法拆解
像学徒制作披萨一样:学徒(Actor-Critic 网络)在不同的状态(环境观测)做出不同决策(动作),得到不同反馈(奖励)。像记录流水账:每一步操作都记录在 storage 中,以便后续反思与学习。像定期复盘:等学徒完成一段时间练习,就进行一次PPO更新(update),在这过程中分析旧做法与新做法的差异,用“剪切”等安全措施避免学徒一下子完全推翻自己之前的经验。持续循环:多次“做批量披萨→记录→复盘更新”,学徒的“脑子”慢慢就学会了做出更好的披萨,动作也更合理,分数越来越高。原创 2024-12-31 10:41:51 · 754 阅读 · 0 评论