
强化学习相关技巧(调参、画图等)
文章平均质量分 81
强化学习调关于超参数、以及学习效果、动作边界值等
优惠券已抵扣
余额抵扣
还需支付
¥19.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
汀、人工智能
本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习在NLP任务中的迁移应用:分类与开放式问答的显著提升
强化学习在NLP任务中的迁移应用:分类与开放式问答的显著提升原创 2025-04-29 11:00:00 · 47 阅读 · 0 评论 -
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等
深度强化学习经验回放(Experience Replay Buffer)的三点高性能修改建议:随机采样、减少保存的数据量、简化计算等转载 2023-07-15 10:05:43 · 4655 阅读 · 0 评论 -
使用GPU进行大规模并行仿真,解决强化学习采样瓶颈:CPU、GPU架构以及原理详解
使用GPU进行大规模并行仿真,解决强化学习采样瓶颈:CPU、GPU架构以及原理详解原创 2023-07-14 15:46:38 · 1338 阅读 · 0 评论 -
并行环境让采样速度快两个量级:Isaac Gym提速强化学习
并行环境让采样速度快两个量级:Isaac Gym提速强化学习原创 2023-07-14 15:26:57 · 893 阅读 · 0 评论 -
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法原创 2023-07-14 15:17:34 · 4397 阅读 · 0 评论 -
深度强化学习调参技巧:以DQN、DDPG、TD3、PPO、SAC等算法为例
深度强化学习调参技巧:以D3QN、DDPG、TD3、PPO、SAC算法为例原创 2023-07-14 15:08:20 · 2764 阅读 · 0 评论 -
强化学习:python生成数据曲线平滑处理——(Savitzky-Golay 滤波器、convolve滑动平均滤波)方法介绍,推荐玩强化学习的小伙伴收藏
相关文章:Python xlwt数据保存到 Excel中以及xlrd读取excel文件画图先上效果图:由于高频某些点的波动导致高频曲线非常难看,为了降低噪声干扰,需要对曲线做平滑处理,让曲线过渡更平滑,可以看出经过平滑处理后更明显去除噪声且更加美观。1.滑动平均滤波滑动平均滤波法(又称:递推平均滤波法),它把连续取N个采样值看成一个队列 ,队列的长度固定为N ,每次采样到一个新数据放入队尾,并扔掉原来队首的一次数据(先进先出原则) 。把队列中的N个数据进行算术平均运算,就...原创 2021-08-12 15:39:00 · 5624 阅读 · 2 评论 -
python随机种子seed的作用(强化学习常用到)
python随机种子seed的作用(强化学习常用到)原创 2022-03-14 16:38:29 · 8794 阅读 · 0 评论 -
强化学习技巧五:numba提速python程序
numba是一款可以将python函数编译为机器代码的JIT编译器,经过numba编译的python代码(仅限数组运算),其运行速度可以接近C或FORTRAN语言。numba使用情况使用numpy数组做大量科学计算时 使用for循环时1.numba使用导入numpy、numba及其编译器import numpy as npimport numbafrom numba import jit传入numba装饰器jit,编写函数# 使用numba的情况@jit(nopyth原创 2021-07-10 14:35:23 · 1325 阅读 · 0 评论 -
强化学习技巧四:模型训练速度过慢、GPU利用率较低,CPU利用率很低问题总结与分析。
1.PyTorchGPU利用率较低问题原因:在服务器端或者本地pc端,输入nvidia-smi来观察显卡的GPU内存占用率(Memory-Usage),显卡的GPU利用率(GPU-util),然后采用top来查看CPU的线程数(PID数)和利用率(%CPU)1.1 GPU内存占用率问题这是由于模型的大小以及batch size的大小,来影响这个指标。GPU的内存占用率主要是模型的大小,包括网络的宽度,深度,参数量,中间每一层的缓存,都会在内存中开辟空间来进行保存,所以模型本身会占原创 2021-07-09 21:09:20 · 17670 阅读 · 3 评论 -
强化学习技巧三:Python多进程
1.Python多进程模块Python中的多进程是通过multiprocessing包来实现的,和多线程的threading.Thread差不多,它可以利用multiprocessing.Process对象来创建一个进程对象。这个进程对象的方法和线程对象的方法差不多也有start(), run(), join()等方法,其中有一个方法不同Thread线程对象中的守护线程方法是setDeamon,而Process进程对象的守护进程是通过设置daemon属性来完成的。2.Python多进程实现方法一原创 2021-07-08 21:57:57 · 1006 阅读 · 1 评论 -
强化学习调参技巧二:DDPG、TD3、SAC算法为例:
1.训练环境如何正确编写强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下:1.1 初始阶段:先写一个简化版的训练环境。把任务难度降到最低,确保一定能正常训练。记录正常训练的智能体的分数,与随机动作、传统算法得到的分数做比较。DRL算法的分数应该明显高于随机动作(随机执行动作)。DRL算法不应该低于传统算法的分数。如果没有传统算法,那么也需要自己写一个局部最优的算法评估策略的性能: 大部分情况下,可以直接是对Reward Function 给出的reward原创 2021-07-08 21:12:32 · 6892 阅读 · 1 评论 -
强化学习调参技巧一: DDPG算法训练动作选择边界值_分析解决
原因:actor网络输出用tanh,将动作规范在[-1,1],然后线性变换到具体的动作范围。其次,tanh激活区是有范围的,你的预激活变量(输入tanh的)范围太大,进入了tanh的饱和区,会导致梯度消失,而且tanh输出的自然就靠近边界了解决方案:1、网络的输入输出都是归一化之后的,buffer里的{s,a,r,s_}都是同一个数量级的,2、修改reward能指导网络正确选择动作进行输出输入的数据要标准化或者归一化,然后学习率调小一点。建议换算法,DDPG改成TD3改动原创 2021-07-08 10:24:16 · 12456 阅读 · 15 评论