强化学习笔记-01强化学习介绍

本文是博主对《Reinforcement Learning- An introduction》的阅读笔记,不涉及内容的翻译,主要为个人的理解和思考。

1. 强化学习是什么?解决什么样的问题? 

强化学习主要是针对于同环境进行交互下,学习如何决策使得目标奖励最大。包含了三个要素:交互Interaction、决策Policy和奖励Reward。

  • 同环境的交互Interaction:主要包含了两个方面:受环境影响状态State,通过动作Action来影响环境。强化学习并不需要对环境的完全可知,环境可以作为黑盒,通过环境可以根据当前state和action获取下一状态和奖励。
  • 决策Policy:构建了由状态到动作的映射关系,这个是强化算法学习的核心
  • 奖励Reward:代表了环境在当前状态反馈的即期的收益,既是强化学习优化目标,也是强化学习迭代信号。

强化学习可应用的例子很多,比如:

  • 游戏决策类:比如围棋游戏,目标是胜出得分最大,决策是每一步走子的位置,状态是指当前棋盘内黑白子的位置,同环境的交互是指对手根据当前走子状态形成下一步走子,而奖励是指最终的胜出得分。
  • 参数优化类
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值