- 博客(14)
- 收藏
- 关注

原创 第一章 强化学习环境搭建Anaconda+Pytorch
深度学习需要用到的框架主要是PyTorch,CUDA和cuDNN,编辑器是Pycharm+Anaconda。以下是安装这些工具的总结。本机环境:windows10+intel显卡·安装CUDA、cuDNN和PyTorch时候必须要注意版本的匹配。·如果使用conda安装PyTorch总不能成功,可以试一下低一个版本的PyTorch或者用pip安装。
2024-05-09 12:08:49
603
原创 (已解决)mybatis-plus报错Invalid bound statement (not found): org.example.mapper.UserMapper.insert
1.检查yml文件:(mapper路径没有问题)
2025-01-14 22:08:25
336
原创 第八章 策略学习算法TRPO
TRPO全称是Trust region policy optimization,中文翻译为置信域策略优化。在TRPO出来之前,大部分强化学习算法很难保证单调收敛,TRPO给出了一个单调的策略改善方法。
2024-07-21 12:02:24
228
原创 解决马尔可夫决策过程
马尔可夫决策过程(Markov Decision Process,简称MDP)是一种数学框架,用于建模决策者在不确定性环境中做出决策的过程。
2024-05-30 12:46:24
945
原创 第五章 强化学习进阶-DQN的高级技巧
本小节主要介绍DQN的高级技巧,可以大幅提升DQN的表现,主要内容是对TD算法的改进和对DQN结构的改进。
2024-05-17 12:11:26
1786
1
原创 第七章 连续控制
前六章接触的都是离散的控制,本章学习连续控制。1.Deterministic Policy Gradient 确定策略梯度,是一种Actor-Critic方法。2.可以解决连续控制问题作连续控制的方法有三种:1.离散化,它的缺点是会发生维度灾难2.确定策略网络DPG,它的特点是确定性,没有随机性,对于给定的状态,对应的动作是唯一确定的。3.随机策略网络,它的特点是随机性,给定状态s会输出均值和方差,通过随机抽样得到动作a。
2024-05-16 17:57:29
568
原创 第二章 强化学习基础知识
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了强化学习和深度学习的基础内容。
2024-05-16 17:17:24
895
原创 第三章 蒙特卡洛算法
本章学习蒙特卡洛算法的应用以上就是今天要讲的内容,本文仅仅简单介绍了蒙特卡洛的应用。PS:前两章的内容还没有完善好,后续会放开权限,有意愿了解的,点点关注,后续会更新。
2024-05-14 11:35:24
367
1
原创 ImportError: DLL load failed while importing _multiarray_umath“找不到指定模块”报错解决
initImportError: DLL load failed while importing _multiarray_umath: 找不到指定的模块。initC.initinitinitinitinstalled.Original error was: DLL load failed while importing _multiarray_umath: 找不到指定的模块。
2024-05-11 10:06:51
4209
2
原创 PyTorch学习
打开jupyter:cmd进入虚拟环境后,键入jupyter notebook,会自动跳转,Jupyter以任一行为单位进行运行。·PyCharm控制台逐行运行。可以看到每一个变量属性,但不利于阅读修改。·PyCharm文件以所有行作为运行单位。通用,传播方便,适用于大型项目。help():包的使用说明书。
2024-05-09 17:05:31
114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人