自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【论文阅读】Asynchronous Methods for Deep Reinforcement Learning

(1)优势:异步并行:多线程探索覆盖环境的不同区域,数据多样性替代了经验回放。优势函数:通过Critic的价值评估,策略更新更稳定,方差更低。熵正则化:平衡探索与利用,避免策略过早僵化。(2)局限性:数据效率仍低于经验回放方法(如DQN)。未来可结合分布式计算框架(如多机训练)或改进优势估计方法(如GAE)。

2025-05-28 15:31:44 1096 1

原创 【论文阅读】Playing Atari with Deep Reinforcement Learning(自用)

使用经验回放和目标网络的训练机制,首次实现从像素到动作的端到端强化学习,推动深度RL发展;但也有长时序任务(如Q*bert需长期规划)表现不及人类,奖励裁剪可能影响策略优化,计算成本高等缺点。

2025-05-08 13:22:48 1623 2

翻译 Spinning Up in Deep RL学习记录(一)(自用)

强化学习(RL)研究智能体(agent )如何通过试错进行学习,它将奖励或惩罚智能体的行为这一想法形式化,使其在未来更有可能重复或避免这种行为。强化学习的主要角色是智能体和环境。环境是智能体生存并交互的世界。在每次交互时,智能体观察世界状态(可能是部分观察 ),然后决定采取的行动。当智能体对环境采取行动时,环境会发生变化,也可能自行变化。智能体还会从环境中感知奖励(reward )信号,该信号以数值形式表明当前世界状态的优劣。智能体的目标是最大化其累积奖励,即回报(return )。

2025-05-06 23:20:37 991

原创 下载网址存储

暂存,日后会更新。open-cv的whl文件下载网址:Links for opencv-contrib-python (aliyun.com)

2024-01-30 15:22:30 644 1

原创 Windows环境下CUDA及cuDNN安装及卸载记录

nvidia-smi得到合适的安装版本,来到官网选择对应版本。注意只可选择同版本或者低版本。

2024-01-19 18:11:37 6417 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除