
RL
文章平均质量分 93
Peaceful-Boy
小白学习,上网记笔记
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
最优控制 3:最优控制理论中的极小值原理与动态规划
tftf。原创 2023-04-14 15:29:46 · 3924 阅读 · 0 评论 -
最优控制 2:使用变分法求解最优控制问题
使用变分法求解最优控制问题原创 2023-04-08 14:44:32 · 1179 阅读 · 0 评论 -
最优控制 1:最优控制中不同情形下泛函取到极值的必要条件
最优控制中不同情形下泛函取到极值的必要条件最优控制中不同情形下泛函取到极值的必要条件引言一般问题1. t0t_0t0 固定,t1t_1t1 固定,x0=x(t0)x_0=x(t_0)x0=x(t0) 固定,x1=x(t1)x_1=x(t_1)x1=x(t1) 固定2. t0t_0t0 固定,x0=x(t0)x_0=x(t_0)x0=x(t0) 固定,t1t_1t1 自由,x1=x(t1)x_1=x(t_1)x1=x(t1) 自由3. t0t_0t0 固定,x0=x(t0)x_0=x原创 2023-04-05 22:10:39 · 1396 阅读 · 0 评论 -
强化学习保守策略迭代Conservative policy iteration推导
强化学习保守策略迭代Conservative policy iteration推导原创 2022-11-01 15:10:37 · 803 阅读 · 0 评论 -
强化学习自然策略梯度Natural Policy Gradient推导
强化学习自然策略梯度Natural Policy Gradient推导学习笔记。原创 2022-10-24 15:44:26 · 1917 阅读 · 5 评论 -
强化学习策略梯度定理证明
强化学习策略梯度定理证明原创 2022-10-15 20:40:24 · 1075 阅读 · 0 评论 -
强化学习DDPG算法
强化学习DDPG算法前言因为疫情一直在辗转隔离,没心思学习,索性整理一下学过的东西,就当自我安慰了。DDPG基本原理流程图一些小细节局限性原创 2022-06-07 19:53:44 · 2415 阅读 · 8 评论 -
Ubuntu18.04(非虚拟机)下Anaconda3 + CUDA + cudnn + PyTorch(GPU)安装记录
目录前言0. 台式机配置1. Anaconda3 安装2. CUDA安装2.1. 卸载NVIDIA显卡驱动2.2. 禁用自带nouveau驱动2.3. 重新安装NVIDIA驱动2.4. CUDA安装2.5. CUDA测试cudnn安装安装cudnn测试PyTorch(GPU)安装安装测试前言由于台式机电脑刚刚增加了一块500G的固态硬盘,所以直接把Ubuntu18.04装在整块硬盘里面了,然后原来的存储全部分给WIN10,这样的话便于管理。重新刷过Ubuntu,第一件事肯定就是安装各种各样的开发平台。原创 2021-10-17 17:32:23 · 1101 阅读 · 0 评论 -
强化学习Q-Learning算法
强化学习Q-Learning算法前言基本概念基本概念递推关系前言学习这个算法有一段时间了,但是因为自己犯懒一直没有整理。现整理一下,一方面有刚入门的同学可以参考,另一方面哪里写错或者理解不深的还请大家及时指正。基本概念基本概念首先列出一些强化学习中的基本概念,主要是为了帮助自己回忆起学习这个算法的过程。状态值函数:智能体在状态 sss 处的累计回报的期望值被称为智能在在采用策略 π\...原创 2020-03-19 20:01:49 · 2497 阅读 · 0 评论