
pytorch
开longlong了吗?
这个作者很懒,什么都没留下…
展开
-
pytorch强化学习(2)——重写DQN
在q-learning当中,Q函数的输入是状态state和action,输出是q-value。而DQN就是使用神经网络来拟合Q函数,所以从直观上来说,我觉得神经网络的输入应该是状态state和action,输出应该是q-value。但是,网上绝大多数DQN的代码实现都把state作为网络输入,把所有action的q-value的组合作为网络输出。我觉得这是不直观的、令人费解的,于是我按照自己的想法写了一份DQN代码。原创 2024-03-06 17:37:58 · 603 阅读 · 0 评论 -
pytorch强化学习(1)——DQN&SARSA
文件,功能和上面DQN的一样,内容也几乎完全一样,只是把DQN的名字改成SARSA而已,所以在这里不再赘述。SARSA和DQN基本相同,只有在更新Q网络的时候略有不同,已在代码相应位置做出注释。代码,在这里定义了网络模型和SARSA模型。代码,在这里定义了网络模型和DQN模型。原创 2023-12-13 12:06:11 · 877 阅读 · 0 评论