强化学习:原理、挑战与应用
1. 强化学习基础流程
强化学习是一种使智能体(agent)通过与环境交互来学习最优行为策略的方法。其基本流程主要包括以下几个关键步骤:
1.1 环境响应智能体动作
智能体采取一个动作后,环境会对该动作进行处理,产生一个新的状态,并保存该状态到状态变量中。同时,环境会根据新状态确定智能体下一步可采取的动作,并提供一个奖励信号,告知智能体上一个所选动作的“好坏”程度。这里“好”的定义取决于整个系统的目标,例如在游戏中,好的动作可能是有助于获得更有利的局面甚至赢得胜利;在电梯调度系统中,好的动作可能是使等待时间最小化。
1.2 智能体更新自身
智能体利用奖励值来更新其私有信息和策略参数,以便下次遇到相同情况时,能够基于此次选择所学到的经验做出更好的决策。更新完成后,智能体可能会安静等待,直到环境提示可以再次采取行动;或者立即开始规划下一步动作,这在一些实时系统中尤为有用,因为奖励可能在新状态完全计算出来之前就已给出。
智能体通常不会简单地将每个奖励存入私有信息,而是会对奖励进行处理,以尽可能提取更多价值,甚至可能会改变其他动作的值。例如,在游戏获胜并获得最终奖励后,智能体会将部分奖励分配给导致胜利的每一步动作。
2. 强化学习中的关键问题
2.1 可观测性问题
当智能体更新其策略时,它可能能够访问状态的所有参数,也可能只能访问部分参数。如果智能体能够看到整个状态,我们称其具有完全可观测性;否则,它只有有限可观测性(或部分可观测性)。给予智能体有限可观测性的原因可能是某些参数计算成本过高,且不确定其是否相关。我们可以通过阻止
超级会员免费看
订阅专栏 解锁全文
1428

被折叠的 条评论
为什么被折叠?



