
强化学习
文章平均质量分 93
幻影123!
VBA、Python、Dax、Power Query
展开
-
EM算法求解三硬币模型参数推导
EM算法是一种迭代算法,用于含有隐变量的概率模型的参数估计。该算法通过交替进行两个步骤:E步(Expectation Step,期望步骤)和M步(Maximization Step,最大化步骤)。这篇文章介绍了机器学习中的EM算法,以及如何使用EM算法求解三硬币模型参数。文章主要侧重于基础数学公式的推导和论证,详细解释了EM算法的原理和步骤。作者通过实例演示了如何使用EM算法求解三硬币模型的参数,能够更好地理解EM算法的应用。原创 2023-12-06 23:18:42 · 1756 阅读 · 0 评论 -
强化学习Markov重要公式推导过程
强化学习是一种机器学习方法,它通过智能体与环境的交互来学习最优策略。马尔科夫过程是强化学习中的核心概念之一,它描述了智能体与环境之间的交互过程。本文将介绍马尔科夫过程的基础知识,包括状态、动作、奖励和转移概率等,并详细推导马尔科夫决策过程的动力方程。原创 2023-12-03 11:37:33 · 1196 阅读 · 0 评论 -
源码阅读解析之Alpha Zero 实现五子棋游戏
源码阅读解析之Alpha Zero 实现五子棋游戏-《强化学习-肖智清》 项目地址 Alpha Zero 项目地址 BoardGame2模块实现原创 2021-01-25 11:22:43 · 1764 阅读 · 0 评论