
强化学习
文章平均质量分 77
清茶煮酒yyz
一起理解强化学习
展开
-
解决马尔可夫决策过程
马尔可夫决策过程(Markov Decision Process,简称MDP)是一种数学框架,用于建模决策者在不确定性环境中做出决策的过程。原创 2024-05-30 12:46:24 · 961 阅读 · 0 评论 -
第五章 强化学习进阶-DQN的高级技巧
本小节主要介绍DQN的高级技巧,可以大幅提升DQN的表现,主要内容是对TD算法的改进和对DQN结构的改进。原创 2024-05-17 12:11:26 · 1806 阅读 · 1 评论 -
第六章 REINFORCE和A2C
本章介绍REINFORCE with Baseline的搭建以及A2C的搭建。原创 2024-05-17 12:05:41 · 1691 阅读 · 1 评论 -
第七章 连续控制
前六章接触的都是离散的控制,本章学习连续控制。1.Deterministic Policy Gradient 确定策略梯度,是一种Actor-Critic方法。2.可以解决连续控制问题作连续控制的方法有三种:1.离散化,它的缺点是会发生维度灾难2.确定策略网络DPG,它的特点是确定性,没有随机性,对于给定的状态,对应的动作是唯一确定的。3.随机策略网络,它的特点是随机性,给定状态s会输出均值和方差,通过随机抽样得到动作a。原创 2024-05-16 17:57:29 · 591 阅读 · 0 评论 -
第二章 强化学习基础知识
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了强化学习和深度学习的基础内容。原创 2024-05-16 17:17:24 · 905 阅读 · 0 评论 -
第四章 Fisher-Yates算法
Fisher-Yates算法是一种获取随机序列的算法。原创 2024-05-15 09:15:49 · 448 阅读 · 0 评论 -
第三章 蒙特卡洛算法
本章学习蒙特卡洛算法的应用以上就是今天要讲的内容,本文仅仅简单介绍了蒙特卡洛的应用。PS:前两章的内容还没有完善好,后续会放开权限,有意愿了解的,点点关注,后续会更新。原创 2024-05-14 11:35:24 · 379 阅读 · 0 评论 -
gym渲染画面报错汇总与解决
解决办法:升级pip,手动安装swig,安装vs生成工具,修改代码。原创 2024-05-12 02:04:13 · 1118 阅读 · 1 评论 -
第一章 强化学习环境搭建Anaconda+Pytorch
深度学习需要用到的框架主要是PyTorch,CUDA和cuDNN,编辑器是Pycharm+Anaconda。以下是安装这些工具的总结。本机环境:windows10+intel显卡·安装CUDA、cuDNN和PyTorch时候必须要注意版本的匹配。·如果使用conda安装PyTorch总不能成功,可以试一下低一个版本的PyTorch或者用pip安装。原创 2024-05-09 12:08:49 · 615 阅读 · 0 评论