大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为优快云博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳,不仅形成深入且独到的理解,而且能够帮助新手快速入门。 本文主要介绍了强化学习资源汇总,希望能对学习强化学习的同学们有所帮助。 文章目录 1. 基本概念讲解 MDP(马尔科夫决策过程) TD误差 1.3 老虎机 1.4 最优控制与强化学习的关系 1.5 时齐性 1.6 两种测试方法 1.7 利用与探索 1.8 价值 2. Model-Free RL & PPO 3. Model-Based RL & PPO 4. PPO 4.1 简要介绍 4.2 PPO的两种形式 5. 经验回放 5.1 基本概念 5.2 优先经验回放(Prioritized Experience Replay) 6. paper 7. huggingface系列课程 8. 应用一:Let's verify step by step 1. 基本概念讲解 强化学习的目标是求解最优策略,强化学习都是不同的对策略和值进行迭代的。学习随机变量的 expectation 期望值。 强化学习是什么? Actor-Critic Model-Based强化学习的思想和https://zhuanlan.zhihu.com/p/546317347