
强化学习
文章平均质量分 94
xinxing_Star
这个作者很懒,什么都没留下…
展开
-
最NB强化学习路线图
要理解P问题、NP问题、NPC问题、NP-hard问题,需要先弄懂几个概念:什么是多项式时间? 什么是确定性算法?什么是非确定性算法? 什么是规约/约化?多项式时间(Polynomial time)什么是时间复杂度?确定性算法与非确定性算法确定性算法:设A是求解问题B的一个解决算法,在算法的整个执行过程中,每一步都能得到一个确定的解,这样的算法就是确定性算法。非确定性算法:设A是求解问题B的一个解决算法,它将问题分解成两部分,分别为猜测阶段和验证阶段,其中猜测阶..原创 2021-10-29 09:44:21 · 2484 阅读 · 0 评论 -
强化学习(Reinforcement Learning)知识整理
马尔可夫决策过程(Markov Decision Processes,MDPs)MDPs 简单说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)获得奖励(Reward)与环境(Environment)发生交互的循环过程。MDP 的策略完全取决于当前状态(Only present matters),这也是它马尔可夫性质的体现。其可以简单表示为:基本概念: 有限状态 state 集合,s 表示某个特定状态 : 有限动作 action 集合,a 表...原创 2021-06-05 15:28:56 · 1890 阅读 · 0 评论