强化学习的实用技巧与未来展望
1. 强化学习面临的挑战与问题框架搭建
强化学习在现实生活中应用颇具难度,这不仅是因为它依赖于机器学习和软件工程,还因为顺序随机性会延迟和隐藏问题。当面对新的工业问题时,马尔可夫决策过程的组成部分往往模糊不清,此时需要明确概念并验证强化学习解决该问题的可行性。
1.1 问题分析步骤
- 随机策略可视化 :尝试想象一个随机策略在虚拟环境中的表现,包括它的行动方向、交互对象、何时做出正确决策以及找到正确决策的速度。若随机策略始终无法做出正确决策,强化学习可能难以发挥作用。
- 自我尝试解决 :假设自己是智能体,思考在探索完每个状态后能否做出正确决策,能否利用观察结果指导决策,哪些因素会使决策更简单或更困难,以及能从观察结果中提取哪些特征。若无法构思出可行策略,强化学习或机器学习可能不适用。
- 使用基线评估性能 :从随机智能体开始,接着采用交叉熵方法(一种简单算法,能从随机探索中回顾之前的最佳结果),然后尝试简单的Q学习或策略梯度算法。每次实施新算法时,将其视为科学实验,提出理论、验证理论、从实验中学习并指导未来的实施。
- 简化任务 :尽可能简化任务,优先获取快速成果。具体做法包括减少状态和动作空间,可手动设计特征或利用领域知识去除不合理的状态部分;简化目标或问题定义,例如先训练机器人移动到某个位置,而非直接尝试让其拾取物体;简化奖励机制,消除奖励稀疏性,使用到目标的距离等指标,使奖励更平滑,去除异常值或不连续性。
超级会员免费看
订阅专栏 解锁全文
40

被折叠的 条评论
为什么被折叠?



