强化学习------DQN算法

简介

DQN,即深度Q网络(Deep Q-network),是指基于深度学习的Q-Learing算法。Q-Learing算法维护一个Q-table,使用表格存储每个状态s下采取动作a获得的奖励,即状态-价值函数Q(s,a),这种算法存在很大的局限性。在现实中很多情况下,强化学习任务所面临的状态空间是连续的,存在无穷多个状态,这种情况就不能再使用表格的方式存储价值函数。
为了解决这个问题,我们可以用一个函数Q(s,a;w)来近似动作-价值Q(s,a),称为价值函数近似Value Function Approximation,我们用神经网络来生成这个函数Q(s,a;w),称为Q网络(Deep Q-network),w是神经网络训练的参数。

Q-Learning参考:https://blog.youkuaiyun.com/niulinbiao/article/details/133659036

DQN相较于传统的强化学习算法(Q-learning)有三大重要的改进:

  • 引入深度学习中的神经网络,利用神经网络去拟合Q-learning中的Q表,解决了Q-learning中,当状态维数过高时产生的“维数灾难”问题;

  • 固定Q目标网络,利用延后更新的目标网络计算目标Q值,极大的提高了网络训练的稳定性和收敛性;

  • 引入经验回放机制,使得在进行网络更新时输入的数据符合独立同分布,打破了数据间的相关性。

本文还增加了动态探索概率,也就是随着模型的训练,我们有必要减少探索的概率

DQN的算法流程如下:

在这里插入图片描述

  • 首先,算法开始前随机选择一个初始状态,然后基于这个状态选择执行动作,这里需要进行一个判断,即是通过Q-Network选择一个Q值最大对应的动作,还是在动作空间中随机选择一个动作。
  • 在程序编程中,由于刚开始时,Q-Network中的相关参数是随机的,所以在经验池存满之前,通常将设置的很小,即初期基本都是随机选择动作。
  • 在动作选择结束后,agent将会在环境(Environment)中执行这个动作,随后环境会返回下一状态(S_)和奖励(R),这时将四元组(S,A,R,S_)存入经验池。
  • 接下来将下一个状态(S_)视为当前状态(S),重复以上步骤,直至将经验池存满。
  • 当经验池存满之后,DQN中的网络开始更新。即开始从经验池中随机采样,将采样得到的奖励(R)和下一个状态(S_)送入目标网络计算下一Q值(y),并将y送入Q-Network计算loss值,开始更新Q-Network。往后就是agent与环境交互,产生经验(S,A,R,S_),并将经验放入经验池,然后从经验池中采样更新Q-Network,周而复始,直到Q-Network完成收敛。

在这里插入图片描述

  • DQN中目标网络的参数更新是硬更新,即主网络(Q-Network)参数更新一定步数后,将主网络更新后的参数全部复制给目标网络(Target
    Q-Network)。
  • 在程序编程中,通常将设置成随训练步数的增加而递增,即agent越来越信任Q-Network来指导动作。

代码实现

1、环境准备

我们选择openAIgym环境作为我们训练的环境

  env1 = gym.make("CartPole-v0")

在这里插入图片描述

2、编写经验池函数

经验池的主要内容就是,存数据和取数据

import random
import collections
from torch import FloatTensor

class ReplayBuffer(object):
    # 初始化
    def __init__(self, max_size, num_steps=1 ):
        """
        
        :param max_size: 经验吃大小
        :param num_steps: 每经过训练num_steps次后,函数就学习一次
        """
        self.buffer = collections.deque(maxlen=max_size)
        self.num_steps  = num_steps

    def append(self, exp):
        """
        想经验池添加数据
        :param exp: 
        :return: 
        """
        self.buffer.append(exp)

    def sample(self, batch_size):
        """
        向经验池中获取batch_size个(obs_batch,action_batch,reward_batch,next_obs_batch,done_batch)这样的数据
        :param batch_size: 
        :return: 
        """
        mini_batch = random.sample(self.buffer, batch_size)
        obs_batch, action_batch, reward_batch, next_obs_batch, done_batch = zip(*mini_batch)
        obs_batch = FloatTensor(obs_batch)
        action_batch = FloatTensor(action_batch)
        reward_batch = FloatTensor(reward_batch)
        next_obs_batch = FloatTensor(next_obs_batch)
        done_batch = FloatTensor(done_batch)
        return obs_batch,action_batch,reward_batch,next_obs_batch,done_batch

    def __len__(self):
        return len(self.buffer)

3、神经网络模型

我们简单地使用神经网络

import torch

class MLP(torch.nn.Module):

    def __init__(self, obs_size,n_act):
        super().__init__()
        self.mlp = self.__mlp(obs_size,n_act)

    def __mlp(self,obs_size,n_act):
        return torch.nn.Sequential(
            torch.nn.Linear(obs_size, 50),
            torch.nn.ReLU(),
            torch.nn.Linear(50, 50),
            torch.nn.ReLU(),
            torch.nn.Linear(50, n_act)
        )

    def forward(self, x):
        return self.mlp(x)

4、探索率衰减函数

随着训练过程,我们动态地减小探索率,因为训练到后面,模型会越来越收敛,没必要继续探索

#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import numpy as np

class EpsilonGreedy():

    def __init__(self,n_act,e_greed,decay_rate):
        self.n_act = n_act
        self.epsilon = e_greed
        self.decay_rate = decay_rate


    def act(self,predict_func,obs):
        if np.random.uniform(0, 1) < self.epsilon:  # 探索
            action = np.random.choice(self.n_act)
        else:  # 利用
            action = predict_func(obs)
        self.epsilon = max(0.01,self.epsilon-self.decay_rate)   #是探索率最低为0.01
        return action

5、DQN算法

import copy

import numpy as np
import torch
from utils import torchUtils

# 添加探索值递减的策略
class DQNAgent(object):

    def __init__( self, q_func, optimizer, replay_buffer, batch_size, replay_start_size,update_target_steps, n_act,explorer, gamma=0.9):
        '''
        :param q_func: Q函数
        :param optimizer: 优化器
        :param replay_buffer: 经验回放器
        :param batch_size: 批次数量
        :param replay_start_size: 开始回放的次数
        :param update_target_steps: 经过多少步才会同步target网络
        :param n_act: 动作数量
        :param gamma: 收益衰减率
        :param e_greed: 探索与利用中的探索概率
        '''
        self.pred_func = q_func
        self.target_func = copy.deepcopy(q_func)
        self.update_target_steps = update_target_steps
        self.explorer = explorer

        self.global_step = 0  #全局

        self.rb = replay_buffer
        self.batch_size = batch_size
        self.replay_start_size = replay_start_size

        self.optimizer = optimizer
        self.criterion = torch.nn.MSELoss()

        self.n_act = n_act  # 动作数量
        self.gamma = gamma  # 收益衰减率

    # 根据经验得到action
    def predict(self, obs):
        obs = torch.FloatTensor(obs)
        Q_list = self.pred_func(obs)
        action = int(torch.argmax(Q_list).detach().numpy())
        return action

    # 根据探索与利用得到action
    def act(self, obs):
        return self.explorer.act(self.predict,obs)

    def learn_batch(self,batch_obs, batch_action, batch_reward, batch_next_obs, batch_done):

        # predict_Q
        pred_Vs = self.pred_func(batch_obs)
        action_onehot = torchUtils.one_hot(batch_action, self.n_act)
        predict_Q = (pred_Vs * action_onehot).sum(1)
        # target_Q
        next_pred_Vs = self.target_func(batch_next_obs)
        best_V = next_pred_Vs.max(1)[0]
        target_Q = batch_reward + (1 - batch_done) * self.gamma * best_V

        # 更新参数
        self.optimizer.zero_grad()
        loss = self.criterion(predict_Q, target_Q)
        loss.backward()
        self.optimizer.step()

    def learn(self, obs, action, reward, next_obs, done):
        self.global_step+=1
        self.rb.append((obs, action, reward, next_obs, done))
        #当经验池中到的数据足够多时,并且满足每训练num_steps轮就更新一次参数
        if len(self.rb) > self.replay_start_size and self.global_step%self.rb.num_steps==0:
            self.learn_batch(*self.rb.sample(self.batch_size))
        #我们每训练update_target_steps轮就同步目标网络
        if self.global_step%self.update_target_steps==0:
            self.sync_target()

    # 同步target网络
    def sync_target(self):
        for target_param,param in zip(self.target_func.parameters(),self.pred_func.parameters()):
            target_param.data.copy_(param.data)

6、训练代码


import dqn,modules,replay_buffers
import gym
import torch
from explorers import  EpsilonGreedy

class TrainManager():

    def __init__(self,
                 env,  #环境
                 episodes=1000,  #轮次数量
                 batch_size=32,  #每一批次的数量
                 num_steps=4,  #进行学习的频次
                 memory_size = 2000,  #经验回放池的容量
                 replay_start_size = 200,  #开始回放的次数
                 update_target_steps=200,  #经过训练update_target_steps次后将参数同步给target网络
                 lr=0.001,  #学习率
                 gamma=0.9,  #收益衰减率
                 e_greed=0.1,  #探索与利用中的探索概率
                 e_greed_decay=1e-6, #探索率衰减值
                 ):
        self.env = env
        self.episodes = episodes

        n_act = env.action_space.n
        n_obs = env.observation_space.shape[0]
        q_func = modules.MLP(n_obs, n_act)
        optimizer = torch.optim.AdamW(q_func.parameters(), lr=lr)
        rb = replay_buffers.ReplayBuffer(memory_size,num_steps)

        explorer = EpsilonGreedy(n_act,e_greed,e_greed_decay)

        self.agent = dqn.DQNAgent(
            q_func=q_func,
            optimizer=optimizer,
            replay_buffer = rb,
            batch_size=batch_size,
            update_target_steps=update_target_steps,
            replay_start_size = replay_start_size,
            n_act=n_act,
            explorer = explorer,
            gamma=gamma)

    # 训练一轮游戏
    def train_episode(self):
        total_reward = 0
        obs = self.env.reset()
        while True:
            action = self.agent.act(obs)
            next_obs, reward, done, _ = self.env.step(action)
            total_reward += reward
            self.agent.learn(obs, action, reward, next_obs, done)
            obs = next_obs
            if done: break
        print('e_greed=',self.agent.explorer.epsilon)
        return total_reward

    # 测试一轮游戏
    def test_episode(self):
        total_reward = 0
        obs = self.env.reset()
        while True:
            action = self.agent.predict(obs)
            next_obs, reward, done, _ = self.env.step(action)
            total_reward += reward
            obs = next_obs
            self.env.render()
            if done: break
        return total_reward

    def train(self):
        for e in range(self.episodes):
            ep_reward = self.train_episode()
            print('Episode %s: reward = %.1f' % (e, ep_reward))
            #每训练100轮我们就测试一轮
            if e % 100 == 0:
                test_reward = self.test_episode()
                print('test reward = %.1f' % (test_reward))


if __name__ == '__main__':
    env1 = gym.make("CartPole-v0")
    tm = TrainManager(env1)
    tm.train()

实现效果

在这里插入图片描述

<think>好的,我现在需要帮助用户了解DQN算法的工作原理和实现方法。首先,我需要回忆一下DQN的基本概念和相关知识。DQN是深度强化学习中的一个重要算法,结合了Q学习和深度神经网络。用户提到了参考资料的引用,我需要确保在回答中正确引用这些资料。 首先,我应该从DQN的核心思想开始。传统Q学习在复杂状态空间中效率低下,因为Q表会变得过于庞大。DQN使用神经网络来近似Q函数,这样就能处理高维输入。需要提到经验回放和目标网络这两个关键技术,这两个是DQN的创新点,解决了数据相关性和目标不稳定的问题。 接下来,要分步骤解释DQN的工作原理。第一步是Q值近似,用神经网络代替Q表。第二步是经验回放,存储转移样本并随机抽取,打破相关性。第三步是目标网络,固定参数以减少目标Q值的波动。这部分需要结合引用中的内容,比如引用[2]提到DQN通过结合神经网络和Q学习解决复杂环境下的问题。 然后,实现方法部分需要给出代码示例,但用户提供的引用中没有代码,可能需要自己构造一个简单的示例。代码应包括神经网络的定义、经验回放缓冲区的实现、选择动作的epsilon-greedy策略,以及训练循环中的目标网络更新。要注意代码注释,确保用户理解每一步的作用。 在相关问题的生成部分,需要涵盖DQN的改进算法、应用场景、挑战和超参数调整等。这些问题应该与用户可能感兴趣的后续学习方向相关,比如Rainbow算法DQN的扩展,应用场景如游戏控制,挑战如训练稳定性,这些都是常见的关注点。 需要检查是否符合用户的要求:使用中文回答,数学公式用$...$,独立公式用$$...$$,正确引用资料。例如,在提到贝尔曼方程时,使用独立公式,并确保引用标记正确放置。例如,在解释目标网络时,引用[2]中提到DQN结合神经网络和Q学习,因此在该部分末尾添加[^2]。 可能还需要验证某些技术细节,比如经验回放的作用是否准确描述,目标网络的更新频率是否正确。要确保没有错误,比如经验回放确实解决了数据相关性和非平稳分布的问题,而目标网络减少了目标值的波动,这些都是DQN的关键点。 最后,确保回答结构清晰,分步骤讲解,代码示例正确,相关问题有针对性。同时,所有引用标记应自然出现在相关内容的末尾,避免格式错误。</think>深度Q网络(DQN算法详解及其实现 --- ### 1. DQN算法核心思想 DQN通过深度神经网络近似Q值函数$Q(s,a)$,解决了传统Q学习在高维状态空间中的维度灾难问题。其两大创新点为: 1. **经验回放(Experience Replay)**:存储转移样本$(s_t,a_t,r_t,s_{t+1})$到缓冲区,训练时随机抽取样本以打破数据相关性 2. **目标网络(Target Network)**:使用独立的目标网络计算目标Q值,缓解训练不稳定性 ### 2. 算法原理分步解析 #### 2.1 Q值函数近似 使用神经网络参数$\theta$近似最优Q值函数: $$ Q^*(s,a) \approx Q(s,a;\theta) $$ #### 2.2 经验回放机制 每次训练时从缓冲区随机采样mini-batch,计算时序差分误差: $$ L(\theta) = \mathbb{E}\left[ \left( r + \gamma \max_{a'} Q(s',a';\theta^-) - Q(s,a;\theta) \right)^2 \right] $$ 其中$\theta^-$为目标网络参数[^1] #### 2.3 目标网络更新 目标网络参数定期同步: $$ \theta^- \leftarrow \tau\theta + (1-\tau)\theta^- \quad (0 < \tau \leq 1) $$ ### 3. 代码实现(PyTorch框架) ```python import torch import random from collections import deque class DQNAgent: def __init__(self, state_dim, action_dim): self.q_net = torch.nn.Sequential( torch.nn.Linear(state_dim, 64), torch.nn.ReLU(), torch.nn.Linear(64, 32), torch.nn.ReLU(), torch.nn.Linear(32, action_dim) ) self.target_net = torch.nn.Sequential(...) # 结构相同 self.memory = deque(maxlen=10000) # 经验回放缓冲区 def act(self, state, epsilon): if random.random() < epsilon: # ε-greedy策略 return random.randint(0, self.action_dim-1) else: return torch.argmax(self.q_net(state)).item() def train(self, batch_size=32, gamma=0.99): batch = random.sample(self.memory, batch_size) # 计算当前Q值和目标Q值 current_q = self.q_net(states).gather(1, actions) next_q = self.target_net(next_states).max(1)[0].detach() target_q = rewards + (1 - dones) * gamma * next_q # 优化网络参数 loss = torch.nn.MSELoss()(current_q, target_q) optimizer.zero_grad() loss.backward() optimizer.step() ``` ### 4. 关键参数说明 | 参数 | 典型值 | 作用 | |--------------|-----------|--------------------------| | 缓冲区容量 | 1e4~1e6 | 控制经验多样性 | | 学习率 | 0.0001~0.001 | 影响参数更新步长 | | γ折扣因子 | 0.9~0.99 | 平衡即时/长期回报 | | ε衰减率 | 0.995~0.999 | 控制探索-利用平衡 |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韭菜盖饭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值