清茶煮酒yyz-优快云博客

原创第一章强化学习环境搭建Anaconda+Pytorch

深度学习需要用到的框架主要是PyTorch，CUDA和cuDNN，编辑器是Pycharm+Anaconda。以下是安装这些工具的总结。本机环境：windows10+intel显卡·安装CUDA、cuDNN和PyTorch时候必须要注意版本的匹配。·如果使用conda安装PyTorch总不能成功，可以试一下低一个版本的PyTorch或者用pip安装。

2024-05-09 12:08:49 657

原创（已解决）mybatis-plus报错Invalid bound statement (not found): org.example.mapper.UserMapper.insert

1.检查yml文件：（mapper路径没有问题）

2025-01-14 22:08:25 565

原创第八章策略学习算法TRPO

TRPO全称是Trust region policy optimization，中文翻译为置信域策略优化。在TRPO出来之前，大部分强化学习算法很难保证单调收敛，TRPO给出了一个单调的策略改善方法。

2024-07-21 12:02:24 286

原创解决马尔可夫决策过程

马尔可夫决策过程（Markov Decision Process，简称MDP）是一种数学框架，用于建模决策者在不确定性环境中做出决策的过程。

2024-05-30 12:46:24 1090

原创第五章强化学习进阶-DQN的高级技巧

本小节主要介绍DQN的高级技巧，可以大幅提升DQN的表现，主要内容是对TD算法的改进和对DQN结构的改进。

2024-05-17 12:11:26 1854 1

原创第六章 REINFORCE和A2C

本章介绍REINFORCE with Baseline的搭建以及A2C的搭建。

2024-05-17 12:05:41 1789 1

前六章接触的都是离散的控制，本章学习连续控制。1.Deterministic Policy Gradient 确定策略梯度，是一种Actor-Critic方法。2.可以解决连续控制问题作连续控制的方法有三种：1.离散化，它的缺点是会发生维度灾难2.确定策略网络DPG，它的特点是确定性，没有随机性，对于给定的状态，对应的动作是唯一确定的。3.随机策略网络，它的特点是随机性，给定状态s会输出均值和方差，通过随机抽样得到动作a。

2024-05-16 17:57:29 645

原创第二章强化学习基础知识

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了强化学习和深度学习的基础内容。

2024-05-16 17:17:24 950

原创第四章 Fisher-Yates算法

Fisher-Yates算法是一种获取随机序列的算法。

2024-05-15 09:15:49 547

原创第三章蒙特卡洛算法

本章学习蒙特卡洛算法的应用以上就是今天要讲的内容，本文仅仅简单介绍了蒙特卡洛的应用。PS:前两章的内容还没有完善好，后续会放开权限，有意愿了解的，点点关注，后续会更新。

2024-05-14 11:35:24 451 1

原创 gym渲染画面报错汇总与解决

解决办法：升级pip，手动安装swig，安装vs生成工具，修改代码。

2024-05-12 02:04:13 1325 1

原创 ImportError: DLL load failed while importing _multiarray_umath“找不到指定模块”报错解决

initImportError: DLL load failed while importing _multiarray_umath: 找不到指定的模块。initC.initinitinitinitinstalled.Original error was: DLL load failed while importing _multiarray_umath: 找不到指定的模块。

2024-05-11 10:06:51 5047 2

原创 PyTorch学习

打开jupyter:cmd进入虚拟环境后，键入jupyter notebook，会自动跳转，Jupyter以任一行为单位进行运行。·PyCharm控制台逐行运行。可以看到每一个变量属性，但不利于阅读修改。·PyCharm文件以所有行作为运行单位。通用，传播方便，适用于大型项目。help():包的使用说明书。

2024-05-09 17:05:31 140

weixin_47304406的博客