机器学习技术入门:从基础概念到实际应用
1. 强化学习基础概念
1.1 关键元素
强化学习中有几个关键元素,它们构成了整个学习过程的基础:
- 状态(State) :智能因子或智能体移动后,环境会反馈其所处的位置。
- 动作(Action) :智能因子或智能体在环境内的移动。
- 策略(Policy) :智能因子或智能体针对当前状态为后续动作或移动制定的行动计划。
- 奖励(Reward) :环境或周围给予智能因子或智能体的反馈,用于评估其移动情况。
- Q值(Q - value) :类似于价值,但多捕捉一个当前动作或移动(a)的额外参数。
- 价值(Value) :与短期奖励相反,追求长期回报。
1.2 显著特征
强化学习具有以下显著特征:
- 基于试错过程。
- 智能因子或智能体可能获得挫折性奖励。
- 无需向智能因子或智能体传授周围环境信息以及所需的移动操作。
- 智能因子或智能体需要自动探索周围环境以获取最大正奖励。
- 有基于价值、基于策略和基于模型三种执行强化学习的方法。
1.3 类型
强化学习主要分为以下两类:
- 正强化(Positive Reinforcement) :通过加入某种因素来增强某种倾向,使预期行为再次发生,能积极影响智
超级会员免费看
订阅专栏 解锁全文
1596

被折叠的 条评论
为什么被折叠?



