1.名词解释以及一些简写
蒙特卡洛近似:抽一个或很多个随机样本,用随机样本来近似
PDF: probability density function 概率密度函数,对于连续变量
PMF: probability mass function 概率质量函数,对于离散变量
CDF: cumulative distribution function 累积分布函数

大写字母,如X,表示随机变量
小写字母,如x,表示对随机变量的 观测值/实际取值
2.直观例子
写这个是为了方便理解与认知,我觉得有个大致的图在脑子里更好
2.1 对随机变量求期望相当于消去那个变量

2.2 随机抽样
根据某些概率分布来取观测值

3.蒙特卡洛估计
想法:以随机样本来估算真实值
3.1 直观例子:近似定积分


本文介绍了蒙特卡洛近似、概率密度函数、累积分布函数等统计概念,并通过随机抽样的直观例子进行解释。接着探讨了蒙特卡洛方法在估算和定积分中的应用。随后,文章深入到强化学习领域,详细阐述了马尔可夫决策过程,包括智能体、状态、动作、环境、奖励、策略和回报的概念。通过王者荣耀游戏的例子,解释了状态价值函数和动作价值函数如何评估策略,并讨论了价值学习中的TD算法。文章旨在帮助读者理解蒙特卡洛方法与强化学习的基本原理及其在实际问题中的应用。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



