强化学习:原理、挑战与算法实践
1. 强化学习流程步骤
1.1 步骤二:环境处理与状态更新
在强化学习过程的步骤二中,首先要计算新的状态。环境会处理智能体的动作,生成新的状态,并处理这一变化带来的信息。环境将新状态保存到状态变量中,这样当智能体下次选择动作时,这些变量就能反映新的环境。同时,环境会根据新状态确定智能体下次可采取的动作,旧的状态和可用动作会被新的版本完全替代。最后,环境会提供一个奖励信号,告知智能体其上次选择的动作有多“好”,这里“好”的含义取决于整个系统的目标。例如在游戏中,好的动作是能让玩家占据更有利位置甚至获胜的动作;在电梯调度系统中,好的动作可能是能使等待时间最短的动作。
1.2 步骤三:智能体自我更新
步骤三如图所示,智能体根据奖励值更新其私有信息和策略参数,以便下次遇到相同情况时,能基于这次的选择继续学习。完成这一步后,智能体可能会安静等待,直到环境提示它再次采取行动;也可以立即开始规划下一步动作,这在奖励先于新状态完全计算出来的实时系统中尤为有用。
智能体通常不会简单地将每个奖励存入私有信息,而是会对其进行处理,以尽可能提取更多价值,这可能还涉及改变其他动作的值。比如在游戏获胜并获得最终奖励后,我们可能会将部分奖励分配给导致胜利的每个动作。
强化学习的目标是帮助智能体从反馈中学习,选择能带来最佳奖励的动作。无论是游戏获胜、电梯调度、疫苗设计还是机器人移动,我们都希望创建一个能从经验中学习的智能体,使其在操纵环境以获得积极奖励方面表现得尽可能出色。
2. 整体视角下的关键问题
2.1 可观测性
当智能体更新其策略时,它可
超级会员免费看
订阅专栏 解锁全文
1754

被折叠的 条评论
为什么被折叠?



