DQN神经网络小结(Pytorch版)

本文介绍了强化学习的基础概念,包括RL、QN、Sarsa,通过一个走棋游戏举例说明。详细讲解了DQN神经网络的原理,包括状态行为函数、Q-Learning与SARSA的区别,并给出了DQN的Pytorch实现,讨论了DQN中的关键点如经验回放缓冲区和双网络。最后,文章分享了在实现过程中遇到的坑和解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

阅读此篇文章你将懂得,什么是QN ,什么是 Sarsa。如何手动编写环境,你将知道什么是DQN。此篇文章也是参考了大量的资料最后总结出来的,同时这个也是我两天的小结。

在开始之前我们需要介绍一下什么是 QN 然后什么是 DQN 什么是RL,这个东西能干什么?有什么神奇之处,这个其实也是我再次体会到数学的魅力的一次邂逅。

是什么是RL

RL 是一种机器学习方式叫做强化学习,它有什么特点,区别与监督学习它不需要我们手动提供标签,区别去无监督学习,它有一定的反馈机制,等价于提供了“标签” 。
在这里插入图片描述

所以什么是RL,这玩意是一种特殊的学习策略。为什么要学这个,其实也是巧合,有个老哥刚好在玩这个,然后我就发现这个和GAN有点像,它的策略。GAN我不行,这个我觉得我还是可以look look 的。而且我发现我似乎找到了一个好玩的点,所以抱着试一试的心态俺想look look。

今天也是会有两篇博文,一篇是这个,还有一篇是关于操作系统的,昨天晚上推那个DQ

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Huterox

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值