自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 强化学习算法 Expert Iteration (EXIT) 论文解读

最近在尝试看automatic Theorem proving 相关的论文,发现没见过的名词有点多啊。只能是把一些技术相关的原论文拿出来仔细研究一下。其中Thinking Fast and Slow with Deep Learning and Tree Search(论文)就是强化学习相关的,看它与我有缘,那就从它开始吧。

2025-03-14 11:52:38 414

原创 强化学习实践 openai gymnasium D3QN算法实现 + wandb sweep超参搜索

最近将离散动作空间的DRL算法都实现了,也就是从DQN D2QN D3QN 的三个版本。实事求是的讲从D2QN到D3QN所经历的改动不是太大,就是添加了一个dueling net 的网络架构,但是网络的输出仍然是Q。所以我们只要修改Net的类定义就行了。在实现D3QN之后,我又将模型应用到了classic control 的其他场景中,大部分都表现得很好,但是面对mountain car 却怎么都无法收敛。最后通过修改reward函数解决了问题。在之后则利用了wandb sweep进行了超参搜索。

2025-03-10 15:30:23 963

原创 强化学习实践 openai gymnasium CartPole-v1 D2QN算法实现

使用最基础的深度强化学习技巧虽然解决了CartPole-v1 的任务,但是DQN的训练实在是太看脸了,每一次训练都只是有概率收敛(我觉得这很大概率是因为我的超参设置的不够好,但我实在不想再花时间调参了:)),所以我决定在解决下一个问题之前,先学习一下更好的算法,看看能不能在超参完全不变的情况下使agent的表现有一个较大的提高。如标题所见,本篇博客内容是“D2QN算法实现”,实质上从DQN到D2QN的理论创新不难理解,代码改动更是只有两行,所以本篇博客会有一定程度发散。

2025-03-06 20:51:00 875

原创 强化学习实践 openai gymnasium CartPole-v1 DQN算法实现

最近在学习强化学习,大致过了一遍强化学习的数学原理(视频)。视频讲的很好,但是实践的部分总是感觉有点匮乏(毕竟解决grid world 方格世界(GitHub)的问题的很难给人特别大的正反馈),所以就找到了openai gymnaisum 想要玩一下里面的几个环境。CartPole-v1是我的第一个环境,agent分数成功超过threshold(可喜可贺)。虽然环境很简单,但是也花了我很多的时间(主要是调参!)来实现。我的项目也已经放到了GitHub上,欢迎大家使用讨论!

2025-03-05 13:35:56 687

原创 遥感变化检测数据集标注讨论

关于遥感变化检测数据集的一些思考和疑问

2025-02-21 14:42:10 1730

原创 解决:picgo gitee插件无法安装,安装按钮显示由安装中变为安装

解决picgo中的gitee插件安装失败问题

2025-02-19 19:30:20 328

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除