Reward Shaping
Sparse Reward

- 许多场景中,大多数情况下并没有奖励,像是:
- 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢)
- 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励
- 人类可以想办法设计额外的奖励来帮助学习,类似短期目标
Reward Shaping

- 游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数
- 这表示大部分的行为没有奖励
- 可以设计短期目标,帮助机器学习:
- 移动、吃补给包、补包加分
- 扣血: 负奖励 (更容易死亡)
- 待在原地: 负奖励 (因为模型可能会避免移动,失去探索的机会)
- 活着: 负奖励 (因为模型可能会移动但避免战斗,失去探索的机会)
- 需要人类的领域知識介入,才能设计良好的奖励
Curiosity

- 当模型,看到有意义的新发现时,会获得奖励
- 有意义的新发现,是为了避免无用的新发现,让模型放弃探索
- 如何避免无意义的新发现,详情请看论文
在强化学习中,稀疏奖励如围棋和机器人任务等常常导致学习困难。奖励塑造通过引入额外的短期目标,如游戏得分机制,帮助模型进行学习。此外,好奇心激励策略使模型在发现有意义的新状态时获得奖励,促进探索。设计有效的奖励机制需要领域知识,以避免无用的探索。
8万+

被折叠的 条评论
为什么被折叠?



