强化学习原理python篇01——基本概念

WuRobb

已于 2024-01-04 18:44:01 修改

阅读量1k

点赞数 19

分类专栏：强化学习文章标签：机器学习

于 2024-01-04 18:43:31 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wurobb/article/details/135370353

版权

强化学习原理python篇01——基本概念

网格世界例子
状态和行动
- 状态
- 行动
状态转移
策略
鼓励
trajectories,returns, and episodes
MDPs（Markov decision processes）
Ref

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Basic Concepts章节，请各位结合阅读，本合集只专注于数学概念的代码实现。

通过一个例子来介绍强化学习的基本概念。

网格世界例子

如下图所示，有一个机器人在该网格世界中，他的目标是 目标方块 并且只能在白色方块中移动，一次只能移动一步，那如何找到 最好的策略 去找到目标点呢？
在这里插入图片描述
对我们（上帝视角）来说，知道网格世界的地图是非常重要的，对机器人来说，他不知道地图的任何信息，他该如何找到目标呢?

状态和行动

状态

定义：描述机器人在该环境中所处的场景

在该任务中，每一个方块队机器人来说就是一个状态，用数学符号 $s$ 表示，下表表示方块的位置，则九个方块的所有状态表示为：
$S={s_1,...,s_9}$

行动

定义：机器人在某一状态时，可以采取的措施和动作

在该任务中，当机器人处于其中一个方块中时，他有五种选择，向上走，向右走，向下走，向左走，保持不动，用数学符号 $a$ 表示，则五个方块的所有状态表示为：
$\Alpha={a_1,...,a_5}$

状态转移

当发生行动是，机器人的状态就改变了，比如在 $s_1$ 状态向右移动到 $s_2$ 状态，用数学符号表示为
$s_1 \stackrel{a_2}{\rightarrow } s_2$

最低0.47元/天解锁文章

博客等级

码龄5年

32
原创

278
点赞

492
收藏

235
粉丝

关注

私信

热门文章

分类专栏

最新评论

强化学习原理python篇08——actor-critic
m0_57304716: 为社么策略网络更新不用优势函数，而用qt。价值网络的更新不用下一个状态的q值，也要用qt呢
热词排序算法——贝叶斯均值法
优快云-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.youkuaiyun.com/skill/algorithm?utm_source=AI_act_algorithm
爬虫教程-抓取房产网站信息
买菜去咯: 王者来不来
Ubuntu22.04三台虚拟机Hadoop集群安装和搭建（全面详细的过程）
菜得扣↑: 博主有遇到这种情况吗？我用命令行分别执行这两条命令是可以执行的 ssh $host "mkdir -p $pdir" rsync -av $pdir/$fname $host:$pdir 但是当我运行脚本的时候它偶尔可行，在输入远程虚拟机的密码后经常报permission denied的错误，但以及开始执行脚本了，我看了相关的文件夹和文件都是rwx权限，我真的觉得打脑壳
强化学习原理python篇01——基本概念
优快云-Ada助手: 推荐 Python入门技能树：https://edu.youkuaiyun.com/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。