- 博客(5)
- 收藏
- 关注
原创 【论文阅读】Asynchronous Methods for Deep Reinforcement Learning
(1)优势:异步并行:多线程探索覆盖环境的不同区域,数据多样性替代了经验回放。优势函数:通过Critic的价值评估,策略更新更稳定,方差更低。熵正则化:平衡探索与利用,避免策略过早僵化。(2)局限性:数据效率仍低于经验回放方法(如DQN)。未来可结合分布式计算框架(如多机训练)或改进优势估计方法(如GAE)。
2025-05-28 15:31:44
1096
1
原创 【论文阅读】Playing Atari with Deep Reinforcement Learning(自用)
使用经验回放和目标网络的训练机制,首次实现从像素到动作的端到端强化学习,推动深度RL发展;但也有长时序任务(如Q*bert需长期规划)表现不及人类,奖励裁剪可能影响策略优化,计算成本高等缺点。
2025-05-08 13:22:48
1623
2
翻译 Spinning Up in Deep RL学习记录(一)(自用)
强化学习(RL)研究智能体(agent )如何通过试错进行学习,它将奖励或惩罚智能体的行为这一想法形式化,使其在未来更有可能重复或避免这种行为。强化学习的主要角色是智能体和环境。环境是智能体生存并交互的世界。在每次交互时,智能体观察世界状态(可能是部分观察 ),然后决定采取的行动。当智能体对环境采取行动时,环境会发生变化,也可能自行变化。智能体还会从环境中感知奖励(reward )信号,该信号以数值形式表明当前世界状态的优劣。智能体的目标是最大化其累积奖励,即回报(return )。
2025-05-06 23:20:37
991
原创 下载网址存储
暂存,日后会更新。open-cv的whl文件下载网址:Links for opencv-contrib-python (aliyun.com)
2024-01-30 15:22:30
644
1
原创 Windows环境下CUDA及cuDNN安装及卸载记录
nvidia-smi得到合适的安装版本,来到官网选择对应版本。注意只可选择同版本或者低版本。
2024-01-19 18:11:37
6417
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅