目录
1.1 随机变量
1.2 蒙特卡洛估计
1.1 随机变量
随机变量和观测值是强化学习常用的两个概念。随机变量是一个不确定的量,它的值取决于一个随机事件的本身。而观测值表示观测到的结果。
例:抛硬币是一个随机事件,抛硬币的结果有正面朝上和反面朝上两种可能,那么抛硬币的结果就是一个随机变量,记为,
的取值为0或者1,0代表正面朝上,1代表反面朝上,所以得到0和1的概率为:
目录
随机变量和观测值是强化学习常用的两个概念。随机变量是一个不确定的量,它的值取决于一个随机事件的本身。而观测值表示观测到的结果。
例:抛硬币是一个随机事件,抛硬币的结果有正面朝上和反面朝上两种可能,那么抛硬币的结果就是一个随机变量,记为,
的取值为0或者1,0代表正面朝上,1代表反面朝上,所以得到0和1的概率为: