强化学习原理python篇01——基本概念

本章全篇参考赵世钰老师的教材 Mathmatical-Foundation-of-Reinforcement-Learning Basic Concepts章节,请各位结合阅读,本合集只专注于数学概念的代码实现。

通过一个例子来介绍强化学习的基本概念。

网格世界例子

如下图所示,有一个机器人在该网格世界中,他的目标是 目标方块 并且只能在白色方块中移动,一次只能移动一步,那如何找到 最好的策略 去找到目标点呢?
在这里插入图片描述
对我们(上帝视角)来说,知道网格世界的地图是非常重要的,对机器人来说,他不知道地图的任何信息,他该如何找到目标呢?

状态和行动

状态

定义:描述机器人在该环境中所处的场景

在该任务中,每一个方块队机器人来说就是一个状态,用数学符号 s s s表示,下表表示方块的位置,则九个方块的所有状态表示为:
S = s 1 , . . . , s 9 S={s_1,...,s_9} S=s1,...,s9

行动

定义:机器人在某一状态时,可以采取的措施和动作

在该任务中,当机器人处于其中一个方块中时,他有五种选择,向上走,向右走,向下走,向左走,保持不动,用数学符号 a a a表示,则五个方块的所有状态表示为:
A = a 1 , . . . , a 5 \Alpha={a_1,...,a_5} A=a1,...,a5

状态转移

当发生行动是,机器人的状态就改变了,比如在 s 1 s_1 s1状态向右移动到 s 2 s_2 s2状态,用数学符号表示为
s 1 → a 2 s 2 s_1 \stackrel{a_2}{\rightarrow } s_2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值