强化学习:Q学习算法与TensorFlow实现
1. 强化学习基础
强化学习是机器学习的一个重要分支,其核心在于智能体(agent)与环境进行交互,通过不断尝试不同的动作来最大化累积奖励。智能体接收关于环境状态的感官信息,基于这些信息和预定义的策略,在环境中执行动作,从而获得奖励信号。奖励是一个单一的实值标量,而感官信息可能是一个大的特征向量,动作也可能包含多个组件。执行动作会改变环境状态,智能体可以在新状态下继续执行新动作,如此循环。学习的目标是最大化长期累积奖励,而非即时奖励。
1.1 强化学习循环
智能体与环境的交互过程可以用以下循环来概括:
1. 智能体接收环境状态的感官信息。
2. 基于信息和策略,智能体在环境中执行动作。
3. 动作执行后,智能体获得奖励信号。
4. 动作改变环境状态,进入新的循环。
1.2 Q学习算法
Q学习算法是解决强化学习问题的一种经典方法。在学习过程中,它通过估计一个评估函数来评估策略的优劣。Q函数提供了一个从状态和动作空间到值的映射,即Q: S × A => V,其中V表示在状态s执行动作a的未来奖励值。
1.2.1 Q学习算法步骤
- 任意初始化Q(s; a)。
- 对于每个回合(episode):
- 初始化状态s。
- 对于回合的每个步骤:
- 使用从Q导出的策略,从状态s中选择一个动作a。
- 执行动作a,观察奖励r和新状态s’。 <
超级会员免费看
订阅专栏 解锁全文
947

被折叠的 条评论
为什么被折叠?



