强化学习 Q网络DQN-Cart pole游戏代码教程

最新推荐文章于 2025-03-01 21:05:43 发布

程序员奇奇

最新推荐文章于 2025-03-01 21:05:43 发布

阅读量1.2k

点赞数 26

CC 4.0 BY-SA版权

分类专栏：深度学习机器学习实战文章标签：网络游戏强化学习 Q网络 DQN pole游戏代码

本文链接：https://blog.youkuaiyun.com/pythonyanyan/article/details/131747432

深度学习机器学习实战专栏收录该内容

45 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何应用强化学习中的DQN算法解决Cart Pole平衡问题。通过经验回放、固定Q目标等策略，实现智能体在游戏环境中的学习。详细讲解了模型构建、智能体学习函数、模型梯度更新以及训练验证过程。

强化学习（Reinforcement learning，简称RL）是机器学习中的一个领域，区别与监督学习和无监督学习，强调如何基于环境而行动，以取得最大化的预期利益。基本操作步骤：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈reward（奖励）来指导更好的动作。比如本项目的Cart pole小游戏中，agent就是动图中的杆子，杆子有向左向右两种action。

In [ ]:

## 安装依赖
!pip install pygame
!pip install gym
!pip install atari_py
!pip install parl

In [12]:

import gym
import os
import random
import collections

import paddle
import paddle.nn as nn
import numpy as np
import paddle.nn.functional as F
<

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序员奇奇

关注关注

26
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

强化学习笔记1——DQN实现CartPole小游戏（代码分析）

qq_48342932的博客

01-22

6359

state:状态观测值有四个，就是小车的位置，即小车的位置，速度，倾斜角度和角度的变化速度。当位置和角度倾斜超出范围，则环境终止。这里返回一个{ndarray{4，}}的类型，分别代表小车的位置，速度，角度，和角度变化率。action：环境的动作是一维的，能取两个值0和1。取0代表把小车往左移动，取1代表把小车往右边移动。env.step(action)表示执行动作，函数会返回下一个状态st+1，奖励值reward，以及环境终止符done。

DQN实战CartPole

xhsun的博客

12-27

1245

这篇博文要讲解的是利用DQN来做CartPole任务回报的定义：我们知道，给定一个状态sss，agent根据策略π(a∣s)\pi(a|s)π(a∣s)做出行为aaa，得到的奖励是rrr，然后环境根据状态转移概率P(s′∣s)P(s'|s)P(s′∣s)转移到新的状态s′s's′. 强化学习中更多时候关注的是给定某一个状态StS_tSt，它的累计奖励，也叫“回报”或者“收获”，用英文return表示。定义给定状态StS_tSt下的回报： Gt=Rt+γRt+1+γ2Rt+2+⋯ G_t=R_t+

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2023.12.06
恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/617691652。

CartPole 强化学习详解1 - DQN

Oxalate的博客

05-03

1万+

工作中常会接触到强化学习的内容，自己以gym环境中的Cartpole为例动手实现一下，记录点实现细节。 1. gym-CartPole环境准备环境是用的gym中的CartPole-v1，就是火柴棒倒立摆。gym是openai的开源资源，具体如何安装可参照： 强化学习一、基本原理与gym的使用_wshzd的博客-优快云博客_gym 强化学习 这个环境的具体细节（参考gym源码cartpole.py）： action只有向左向右两个选择，离散量观测值有4个，x, x_dot, thet

【强化学习】Policy Gradient 策略梯度算法求解CartPole倒立摆问题 + Pytorch代码实战

热门推荐

知不足而奋进，望远山而前行

10-21

2万+

Agent 必须在两个动作之间做出决定 - 向左或向右移动推车 - 以使连接到它的杆保持直立。我们可以把采样到的数据代入下式中，把梯度算出来。也就是把每一个sss与aaa的对拿进来，计算在某一个状态下采取某一个动作的对数概率（log probability)log⁡pθ(atn∣stn)logpθ(atn∣stn)。对这个概率取梯度，在梯度前面乘一个权重，权重就是这场游戏的奖励。我们计算出梯度后，就可以更新模型。∇Rˉθ=1N。

强化学习算法 DQN 解决 CartPole 问题，代码逐条详解

AItrust的博客

06-19

7884

本文内容源自百度强化学习 7 日入门课程学习整理感谢百度 PARL 团队李科浇老师的课程讲解 强化学习算法 DQN 解决 CartPole 问题，移动小车使得车上的摆杆保持直立。这个游戏环境可以说是强化学习中的 “Hello World” 大部分的算法都可以先利用这个环境来测试下是否可以收敛环境介绍：小车在一个导轨上，无摩擦地来回移动，车上有一根杆子，可以绕着小车上的一个点旋转，所以我们要做的是，通过推动小车往左或者往右，来确保杆子不倒终止条件：杆子角度大于 +/-12度车.

深度强化学习DQN算法实现小车平衡杆(CartPole)问题

02-07

DQN（Deep Q-Network）算法是一种基于深度神经网络的强化学习算法，旨在解决Q-learning算法在高维状态空间中面临的问题。本代码借鉴学习《深度强化学习专栏 —— 2.手撕DQN算法实现CartPole控制》，对每一行代码...

基于强化学习的Deep-Qlearning网络玩cartpole游戏

码农从0到1

08-04

360

1、环境准备，gym的版本为0.26.2。

强化学习DQN实践——CartPole-v0完整代码分析+详细注释

YTIANYE的博客

04-13

1万+

介绍使用PyTorch从OpenAI Gym中的 CartPole-v0 任务上训练一个Deep Q Learning Agent 必须在两个动作之间做出决定 - 向左或向右移动推车 - 以使连接到它的杆保持直立。分析过程 https://pytorch123.com/SeventhSection/ReinforcementLearning/ 完整代码+详细注释 """ 1. 需要的包 """ import gym import math import random import n

基于深度Q网络解决Cart-Pole问题

### 基于深度Q网络解决Cart - Pole问题 #### 1. 深度Q网络与Cart - Pole问题在解决Cart - Pole问题时，我们再次使用贝尔曼方程来训练Q学习智能体： \[Q(s,a) = r + \gamma \max_{a'} Q(s',a')\] 其中，\(s\)是状态...

【ReinforcementLearning】二、强化学习初探——以gym库中的CartPole环境为例

hylan的博客

08-06

1725

以强化学习的gym官方库中的CartPole环境为例，介绍强化学习中的相关概及智能体与环境分离编程的实现。

DQN玩cartpole游戏

高颜值的杀生丸(此博客转载自我的博客园)

05-13

418

import gym import torch import torch.nn as nn import torch.optim as optim import random import pygame import sys from collections import deque # 定义DQN模型 class DQN(nn.Module): def __init__(self)...

（强化学习）DQN实战CartPole游戏

zhangycode的博客

03-09

2485

DQN的全称是deep Q network，是将深度神经网络和Q-learing相结合，克服Q-learing在面对状态空间很大时效率变得很低得问题，DQN其实是用一种近似的方式来求Q函数， ...

基于DQN的CartPole实战

如果想成为中心，那么就到中心去吧。

01-08

985

文章目录前言任务Replay MemoryQ-network输入提取training超参数和实用工具trainning loop 前言本博文展示了如何使用PyTorch在OpenAI Gym的CartPole-v0任务上训练一个深度Q学习(DQN)代理。任务智能体必须在两种行动中做出选择——向左或向右移动小车——这样贴到车上的柱子才能保持直立。你可以在Gym网站上找到带有各种算法和可视化的官方排行榜。当代理观察环境的当前状态并选择一个操作时，环境将转换为一个新状态，并返回一个指示操作结果的奖励。在

DQN 跑 CartPole-v1

NoahBBQ的博客

12-12

1115

DQN 跑 CartPole-v1

DQN原理及其在CartPole环境上的实现（文末有惊喜）

weixin_37522117的博客

11-28

1558

DQN原理及其在CartPole环境上的实现（文末有惊喜）

强化学习（实践）：DQN，Double DQN，Dueling DQN，格子环境

燕双嘤

04-21

5769

以车杆（CartPole）环境为例，它的状态值就是连续的，动作值是离散的。在车杆环境中，有一辆小车，智能体的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束。智能体的状态是一个维数为 4 的向量，每一维都是连续的，其动作是离散的，动作空间大小为 2，详情参见表 7-1 和表 7-2。在游戏中每坚持一帧，智能体能获得分数为 1 的奖励，坚持时间越长，则最后的分数越高，坚持 200 帧即可获得最高的分数。

例子 DQN + CartPole：深入思考一下，强化学习确实是一场智能冒险之旅！