- 博客(7)
- 收藏
- 关注
原创 个人笔记-Zeotro与相关配置
绿青蛙Green Frog:从easyScholar更新期刊信息(需要配置easyScholar密钥)Jasminum茉莉花:获取中文和知网文献。目前用的是Zeotro6版本。
2024-08-26 10:46:03
296
原创 个人笔记-常见激活函数汇总
双曲正切函数,相比于Sigmod,其输出中心到了0点(相当于Sigmod平移拉伸),取值范围。归一化将输入标准化到均值为0,方差为1的标准正态分布上,取值范围。一般取很小,0.01、0.1之类的。可扩大ReLU的取值范围。图片来源:http://t.csdnimg.cn/ZbuW2。,相比于argmax保留了较小分数部分的概率。小于0的部分用指数计算,接近自然梯度。分段斜坡函数,只取正值,取值范围。适用于多分类问题,取值范围。
2024-05-30 21:43:28
1488
原创 个人笔记-强化学习中On-policy和Off-policy的区别
理论上,用当前的policy生成了一条数据,就应该更新一次policy网络的参数,然后policy网络就变了,此时才能再生成第2条数据,依此类推,当生成到第N条数据的时候,policy网络都不知道变成什么鬼样子了,而如果我们用同一个policy连续生成N条数据才去更新一次policy网络的参数,这时的policy网络能跟一条条更新方式相比吗?于是在实践中,经常是每收集了N条数据才会去更新一次,这N条数据是一个batch,并且这N条数据是用同一个policy生成的。参考Reddit上的。
2024-05-22 15:52:08
1538
原创 MAPPO论文翻译-The Surprising Effectiveness of PPO in Cooperative, Multi-Agent Games
Proximal Policy Optimization(PPO)是一种普遍的同策略策略强化学习算法,但在多智体环境中明显比异策略学习算法被利用得少。这往往是因为人们认为在多智体系统中,PPO的样本效率明显低于异策略方法。在本研究中,我们仔细研究了PPO在合作多智体环境中的表现。
2024-05-17 21:01:47
2679
原创 Win10/11 配置深度学习环境+安装Pytorch+TensorFlow
博客2:超详细离线安装配置PyTorch深度学习环境(CUDA11.7+torch1.13+torchvision0.14+torchaudio0.13+python3.7)TensorFlow在pycharm中不显示:file-setting-show All删掉现有解释器,+突变,添加新的,选Conda Environment中,下拉菜单。有幸遇见-b站最全最简洁易学的深度学习环境配置教程Anaconda+Pycharm+CUDA+CUdnn+PyTorch+Tensorflow。
2024-05-09 10:49:17
597
原创 【Python报错-环境】OMP: Error #15: Initializing libiomp5md.dll, but found - already initialized.
直接解决OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错问题_libiomp5md dll-优快云博客。我的路径:C:\Users\Administrator(用户名)\.conda\envs\py38(虚拟环境名称)\Library\bin。将 libiomp5md.dll 改成 000-libiomp5md.dll。
2024-04-02 09:36:09
907
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人