19、基于深度Q网络的自动驾驶赛车实现

最新推荐文章于 2025-12-02 15:02:30 发布

stem5

最新推荐文章于 2025-12-02 15:02:30 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏： 9个项目玩转AI实战文章标签：深度Q网络自动驾驶赛车

本文链接：https://blog.youkuaiyun.com/stem5/article/details/152286749

9个项目玩转AI实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于深度Q网络的自动驾驶赛车实现

在当今科技飞速发展的时代，自动驾驶技术成为了研究的热点。本文将详细介绍如何使用深度Q网络（Deep Q Networks）实现一个能够在赛道上自主学习驾驶的赛车系统。

1. 项目概述

我们的目标是实现一个自动驾驶赛车，它能够在赛道上自行学习驾驶。在这个系统中，驾驶员和赛车作为智能体（agent），而赛道及其周围环境则作为环境（environment）。我们将使用OpenAI Gym的CarRacing - v0框架作为环境，环境会向智能体提供状态和奖励，智能体则根据这些信息采取相应的行动。

2. 环境与状态

环境：使用OpenAI Gym的CarRacing - v0框架。
状态：状态以赛车前方摄像头拍摄的图像形式呈现。
行动：环境接受的行动是一个三维向量 $a \in R^3$，其中第一个分量用于左转，第二个分量用于前进，第三个分量用于右转。智能体与环境进行交互，并将交互转换为 $(s, a, r, s’)$ 形式的元组，这些交互元组将作为我们的训练数据。

3. 行动离散化

在深度Q学习中，行动离散化非常重要。因为三维连续行动空间可能有无限个Q值，在深度Q网络的输出层中不可能为每个Q值设置单独的单元。行动空间的三个维度如下：
- 转向：$ \in [-1, 1]$
- 油门：$ \in [0, 1]$
- 刹车：$ \in [0, 1]$

我们将这个三维行动空间转换为以下四个感兴趣的行动：
| 行动 | 三维向量表示 |
| ---- | ---- |
| 刹车 | [0.0, 0.0, 0.0] |
| 急左转 | [-0.6, 0.05, 0.0] |
| 急右转 | [0.6, 0.05, 0.0] |
| 直行 | [0.0, 0.3, 0.0] |

4. 双深度Q网络（Double Deep Q Network）实现

双深度Q网络具有CNN架构，用于将状态作为图像进行处理，并输出所有可能行动的Q值。以下是详细的代码实现：

import keras
from keras import optimizers
from keras.layers import Convolution2D
from keras.layers import Dense, Flatten, Input, concatenate, Dropout
from keras.models import Model
from keras.utils import plot_model
from keras import backend as K
import numpy as np

'''
Double Deep Q Network Implementation
'''
learning_rate = 0.0001
BATCH_SIZE = 128

class DQN:
    def __init__(self,num_states,num_actions,model_path):

        self.num_states = num_states
        print(num_states)
        self.num_actions = num_actions
        self.model = self.build_model() # Base Model 
        self.model_ = self.build_model() 
       # target Model (copy of Base Model)
        self.model_chkpoint_1 = model_path +"CarRacing_DDQN_model_1.h5"
        self.model_chkpoint_2 = model_path +"CarRacing_DDQN_model_2.h5"

        save_best = keras.callbacks.ModelCheckpoint(self.model_chkpoint_1,
                                                monitor='loss',
                                                verbose=1,
                                                save_best_only=True,
                                                mode='min',
                                                period=20)
        save_per = keras.callbacks.ModelCheckpoint(self.model_chkpoint_2,
                                                monitor='loss',
                                                verbose=1,
                                                save_best_only=False,
                                                mode='min',
                                                period=400)

        self.callbacks_list = [save_best,save_per]

    # Convolutional Neural Network that takes in the state and outputs the Q values for all the possib

    def build_model(self):
        states_in = Input(shape=self.num_states,name='states_in')
        x = Convolution2D(32,(8,8),strides=(4,4),activation='relu')(states_in)
        x = Convolution2D(64,(4,4), strides=(2,2), activation='relu')(x)
        x = Convolution2D(64,(3,3), strides=(1,1), activation='relu')(x)
        x = Flatten(name='flattened')(x)
        x = Dense(512,activation='relu')(x)
        x = Dense(self.num_actions,activation="linear")(x)
        model = Model(inputs=states_in, outputs=x)
        self.opt = optimizers.Adam(lr=learning_rate, beta_1=0.9, beta_2=0.999, epsilon=None,decay=0.0)
        model.compile(loss=keras.losses.mse,optimizer=self.opt)
        plot_model(model,to_file='model_architecture.png',show_shapes=True)
        return model

    # Train function
    def train(self,x,y,epochs=10,verbose=0):
        self.model.fit(x,y,batch_size=(BATCH_SIZE), epochs=epochs, verbose=verbose, callbacks=self.callbacks_list)

   #Predict function
    def predict(self,state,target=False):
        if target:
            # Return the Q value for an action given a state from thr target Network
            return self.model_.predict(state)
        else:
            # Return the Q value from the original Network
            return self.model.predict(state)

    # Predict for single state function
    def predict_single_state(self,state,target=False):
        x = state[np.newaxis,:,:,:]
        return self.predict(x,target)

    #Update the target Model with the Base Model weights
    def target_model_update(self):
        self.model_.set_weights(self.model.get_weights())

在上述代码中，我们有两个模型，一个是基础模型，另一个是目标模型，目标模型是基础模型的副本。基础模型和目标模型分别保存为 CarRacing_DDQN_model_1.h5 和 CarRacing_DDQN_model_2.h5 。通过调用 target_model_update 函数，目标模型的权重将更新为与基础模型相同。

5. 智能体实现

我们实现了两种智能体：学习智能体（Agent）和随机智能体（RandomAgent）。

import math
from Memory import Memory
from DQN import DQN
import numpy as np
import random
from helper_functions import sel_action,sel_action_index

# Agent and Random Agent implementations 

max_reward = 10
grass_penalty = 0.4
action_repeat_num = 8
max_num_episodes = 1000
memory_size = 10000 
max_num_steps = action_repeat_num * 100
gamma = 0.99 
max_eps = 0.1
min_eps = 0.02
EXPLORATION_STOP = int(max_num_steps*10) 
_lambda_ = - np.log(0.001) / EXPLORATION_STOP
UPDATE_TARGET_FREQUENCY = int(50) 
batch_size = 128

class Agent:
    steps = 0
    epsilon = max_eps
    memory = Memory(memory_size)

    def __init__(self, num_states,num_actions,img_dim,model_path):
        self.num_states = num_states
        self.num_actions = num_actions
        self.DQN = DQN(num_states,num_actions,model_path)
        self.no_state = np.zeros(num_states)
        self.x = np.zeros((batch_size,)+img_dim)
        self.y = np.zeros([batch_size,num_actions]) 
        self.errors = np.zeros(batch_size)
        self.rand = False

        self.agent_type = 'Learning'
        self.maxEpsilone = max_eps

    def act(self,s):
        print(self.epsilon)
        if random.random() < self.epsilon:
            best_act = np.random.randint(self.num_actions)
            self.rand=True
            return sel_action(best_act), sel_action(best_act)
        else:
            act_soft = self.DQN.predict_single_state(s)
            best_act = np.argmax(act_soft)
            self.rand=False
            return sel_action(best_act),act_soft

    def compute_targets(self,batch):
        # 0 -> Index for current state
        # 1 -> Index for action 
        # 2 -> Index for reward
        # 3 -> Index for next state

        states = np.array([rec[1][0] for rec in batch])
        states_ = np.array([(self.no_state if rec[1][3] is None else rec[1][3]) for rec in batch])

        p = self.DQN.predict(states)

        p_ = self.DQN.predict(states_,target=False)
        p_t = self.DQN.predict(states_,target=True)
        act_ctr = np.zeros(self.num_actions)

        for i in range(len(batch)):
            rec = batch[i][1]
            s = rec[0]; a = rec[1]; r = rec[2]; s_ = rec[3]

            a = sel_action_index(a)
            t = p[i]
            act_ctr[a] += 1

            oldVal = t[a]
            if s_ is None: 
                t[a] = r
            else:
                t[a] = r + gamma * p_t[i][ np.argmax(p_[i])] # DDQN

            self.x[i] = s
            self.y[i] = t

            if self.steps % 20 == 0 and i == len(batch)-1:
                print('t',t[a], 'r: %.4f' % r,'mean t',np.mean(t))
                print ('act ctr: ', act_ctr)

            self.errors[i] = abs(oldVal - t[a])

        return (self.x, self.y,self.errors)

    def observe(self,sample): # in (s, a, r, s_) format
        _,_,errors = self.compute_targets([(0,sample)])
        self.memory.add(errors[0], sample)

        if self.steps % UPDATE_TARGET_FREQUENCY == 0:
            self.DQN.target_model_update()
        self.steps += 1
        self.epsilon = min_eps + (self.maxEpsilone - min_eps) * np.exp(-1*_lambda_ * self.steps)

    def replay(self): 
        batch = self.memory.sample(batch_size)
        x, y,errors = self.compute_targets(batch)
        for i in range(len(batch)):
            idx = batch[i][0]
            self.memory.update(idx, errors[i])

        self.DQN.train(x,y)

class RandomAgent:
    memory = Memory(memory_size)
    exp = 0
    steps = 0

    def __init__(self, num_actions):
        self.num_actions = num_actions
        self.agent_type = 'Learning'
        self.rand = True

    def act(self, s):
        best_act = np.random.randint(self.num_actions)
        return sel_action(best_act), sel_action(best_act)

    def observe(self, sample): # in (s, a, r, s_) format
        error = abs(sample[2]) # reward
        self.memory.add(error, sample)
        self.exp += 1
        self.steps += 1

    def replay(self): 
        pass

6. 环境实现

环境类负责与智能体进行交互，以下是环境类的代码：

import gym
from gym import envs
import numpy as np
from helper_functions import rgb2gray,action_list,sel_action,sel_action_index
from keras import backend as K

seed_gym = 3
action_repeat_num = 8
patience_count = 200
epsilon_greedy = True
max_reward = 10
grass_penalty = 0.8
max_num_steps = 200 
max_num_episodes = action_repeat_num*100

'''
Enviroment to interact with the Agent
'''

class environment:

    def __init__(self, environment_name,img_dim,num_stack,num_actions,render,lr):
        self.environment_name = environment_name
        print(self.environment_name)
        self.env = gym.make(self.environment_name)
        envs.box2d.car_racing.WINDOW_H = 500
        envs.box2d.car_racing.WINDOW_W = 600
        self.episode = 0
        self.reward = [] 
        self.step = 0
        self.stuck_at_local_minima = 0
        self.img_dim = img_dim
        self.num_stack = num_stack
        self.num_actions = num_actions
        self.render = render
        self.lr = lr
        if self.render == True:
            print("Rendering proeprly set")
        else:
            print("issue in Rendering")

        # Agent performing its task 
    def run(self,agent):
        self.env.seed(seed_gym) 
        img = self.env.reset()
        img = rgb2gray(img, True)
        s = np.zeros(self.img_dim)
        #Collecting the state
        for i in range(self.num_stack):
            s[:,:,i] = img

        s_ = s 
        R = 0
        self.step = 0

        a_soft = a_old = np.zeros(self.num_actions)
        a = action_list[0]
        #print(agent.agent_type)
        while True: 
            if agent.agent_type == 'Learning' : 
                if self.render == True :
                    self.env.render("human")

                if self.step % action_repeat_num == 0:

                    if agent.rand == False:
                        a_old = a_soft

                    #Agent outputs the action
                    a,a_soft = agent.act(s)

                    # Rescue Agent stuck at local minima
                    if epsilon_greedy:
                        if agent.rand == False:
                            if a_soft.argmax() == a_old.argmax():
                                self.stuck_at_local_minima += 1
                                if self.stuck_at_local_minima >= patience_count:
                                    print('Stuck in local minimum, reset learning rate')
                                    agent.steps = 0
                                    K.set_value(agent.DQN.opt.lr,self.lr*10)
                                    self.stuck_at_local_minima = 0
                                else:
                                    self.stuck_at_local_minima = max(self.stuck_at_local_minima -2, 0)
                                    K.set_value(agent.DQN.opt.lr,self.lr)
                    #Perform the action on the environment 
                    img_rgb, r,done,info = self.env.step(a)

                    if not done:
                        # Create the next state
                        img = rgb2gray(img_rgb, True)
                        for i in range(self.num_stack-1):
                            s_[:,:,i] = s_[:,:,i+1]
                        s_[:,:,self.num_stack-1] = img
                    else:
                        s_ = None
                    # Cumulative reward tracking 
                    R += r
                    # Normalize reward given by the gym environment 
                    r = (r/max_reward) 
                    if np.mean(img_rgb[:,:,1]) > 185.0:
                        # Penalize if the car is on the grass
                        r -= grass_penalty 
                    # Keeping the value of reward within -1 and 1 
                    r = np.clip(r, -1 ,1)
                    #Agent has a whole state,action,reward,and next state to learn from
                    agent.observe( (s, a, r, s_) )
                    agent.replay() 
                    s = s_
            else:
                img_rgb, r, done, info = self.env.step(a)
                if not done:
                    img = rgb2gray(img_rgb, True)
                    for i in range(self.num_stack-1):
                        s_[:,:,i] = s_[:,:,i+1]
                    s_[:,:,self.num_stack-1] = img
                else:
                    s_ = None

                R += r
                s = s_

            if (self.step % (action_repeat_num * 5) == 0) and (agent.agent_type=='Learning'):
                print('step:', self.step, 'R: %.1f' % R, a, 'rand:', agent.rand)

            self.step += 1

            if done or (R<-5) or (self.step > max_num_steps) or np.mean(img_rgb[:,:,1]) > 185.1:
                self.episode += 1
                self.reward.append(R)
                print('Done:', done, 'R<-5:', (R<-5), 'Green >185.1:',np.mean(img_rgb[:,:,1]))
                break

        print("Episode ",self.episode,"/", max_num_episodes,agent.agent_type) 
        print("Average Episode Reward:", R/self.step, "Total Reward:", sum(self.reward))

    def test(self,agent):
        self.env.seed(seed_gym)
        img= self.env.reset()
        img = rgb2gray(img, True)
        s = np.zeros(self.img_dim)
        for i in range(self.num_stack):
            s[:,:,i] = img

        R = 0
        self.step = 0
        done = False
        while True :
            self.env.render('human')

            if self.step % action_repeat_num == 0:
                if(agent.agent_type == 'Learning'):
                    act1 = agent.DQN.predict_single_state(s)
                    act = sel_action(np.argmax(act1))
                else:
                    act = agent.act(s)

                if self.step <= 8:
                    act = sel_action(3)

                img_rgb, r, done,info = self.env.step(act)
                img = rgb2gray(img_rgb, True)
                R += r

                for i in range(self.num_stack-1):
                    s[:,:,i] = s[:,:,i+1]
                s[:,:,self.num_stack-1] = img

                if(self.step % 10) == 0:
                    print('Step:', self.step, 'action:',act, 'R: %.1f' % R)
                    print(np.mean(img_rgb[:,:,0]), np.mean(img_rgb[:,:,1]), np.mean(img_rgb[:,:,2]))
            self.step += 1

            if done or (R< -5) or (agent.steps > max_num_steps) or np.mean(img_rgb[:,:,1]) > 185.1:
                R = 0
                self.step = 0
                print('Done:', done, 'R<-5:', (R<-5), 'Green> 185.1:',np.mean(img_rgb[:,:,1]))
                break

7. 主程序

主程序负责训练和测试智能体，以下是主程序的代码：

import sys
#sys.path.append('/home/santanu/ML_DS_Catalog-/Python-Artificial-Intelligence-Projects_backup/Python-Artificial-Intelligence-Projects/Chapter09/Scripts/')
from gym import envs
from Agents import Agent,RandomAgent
from helper_functions import action_list,model_save
from environment import environment
import argparse
import numpy as np
import random
from sum_tree import sum_tree
from sklearn.externals import joblib

'''
This is the main module for training and testing the CarRacing Application from gym
'''

if __name__ == "__main__":
    #Define the Parameters for training the Model

    parser = argparse.ArgumentParser(description='arguments')
    parser.add_argument('--environment_name',default='CarRacing-v0')
    parser.add_argument('--model_path',help='model_path')
    parser.add_argument('--train_mode',type=bool,default=True)
    parser.add_argument('--test_mode',type=bool,default=False)
    parser.add_argument('--epsilon_greedy',default=True)
    parser.add_argument('--render',type=bool,default=True)
    parser.add_argument('--width',type=int,default=96)
    parser.add_argument('--height',type=int,default=96)
    parser.add_argument('--num_stack',type=int,default=4)
    parser.add_argument('--lr',type=float,default=1e-3)
    parser.add_argument('--huber_loss_thresh',type=float,default=1.)
    parser.add_argument('--dropout',type=float,default=1.)
    parser.add_argument('--memory_size',type=int,default=10000)
    parser.add_argument('--batch_size',type=int,default=128)
    parser.add_argument('--max_num_episodes',type=int,default=500)

    args = parser.parse_args()

    environment_name = args.environment_name
    model_path = args.model_path
    test_mode = args.test_mode
    train_mode = args.train_mode
    epsilon_greedy = args.epsilon_greedy
    render = args.render
    width = args.width
    height = args.height
    num_stack = args.num_stack
    lr = args.lr
    huber_loss_thresh = args.huber_loss_thresh
    dropout = args.dropout
    memory_size = args.memory_size
    dropout = args.dropout
    batch_size = args.batch_size
    max_num_episodes = args.max_num_episodes
    max_eps = 1
    min_eps = 0.02 
    seed_gym = 2 # Random state
    img_dim = (width,height,num_stack)
    num_actions = len(action_list)

if __name__ == '__main__':

    environment_name = 'CarRacing-v0'
    env = environment(environment_name,img_dim,num_stack,num_actions,render,lr)
    num_states = img_dim
    print(env.env.action_space.shape)
    action_dim = env.env.action_space.shape[0] 
    assert action_list.shape[1] == action_dim,"length of Env action space does not match action buffer"
    num_actions = action_list.shape[0]
    # Setting random seeds with respect to python inbuilt random and numpy random
    random.seed(901)
    np.random.seed(1)
    agent = Agent(num_states, num_actions,img_dim,model_path)
    randomAgent = RandomAgent(num_actions)

    print(test_mode,train_mode)

    try:
        #Train agent
        if test_mode:
            if train_mode:
                print("Initialization with random agent. Fill memory")
                while randomAgent.exp < memory_size:
                    env.run(randomAgent)
                print(randomAgent.exp, "/", memory_size)

                agent.memory = randomAgent.memory
                randomAgent = None

                print("Starts learning")

                while env.episode < max_num_episodes:
                    env.run(agent)

                model_save(model_path, "DDQN_model.h5", agent, env.reward)

            else:
                # Load train Model 
                print('Load pre-trained agent and learn')
                agent.DQN.model.load_weights(model_path+"DDQN_model.h5")
                agent.DQN.target_model_update()
                try :
                    agent.memory = joblib.load(model_path+"DDQN_model.h5"+"Memory")
                    Params = joblib.load(model_path+"DDQN_model.h5"+"agent_param")
                    agent.epsilon = Params[0]
                    agent.steps = Params[1]
                    opt = Params[2]
                    agent.DQN.opt.decay.set_value(opt['decay'])
                    agent.DQN.opt.epsilon = opt['epsilon']
                    agent.DQN.opt.lr.set_value(opt['lr'])
                    agent.DQN.opt.rho.set_value(opt['rho'])
                    env.reward = joblib.load(model_path+"DDQN_model.h5"+"Rewards")
                    del Params, opt
                except:
                    print("Invalid DDQL_Memory_.csv to load")
                    print("Initialization with random agent. Fill memory")
                    while randomAgent.exp < memory_size:
                        env.run(randomAgent)
                    print(randomAgent.exp, "/", memory_size)

                    agent.memory = randomAgent.memory
                    randomAgent = None

                    agent.maxEpsilone = max_eps/5

                    print("Starts learning")

                    while env.episode < max_num_episodes:
                        env.run(agent)

                    model_save(model_path, "DDQN_model.h5", agent, env.reward)
        else:
            print('Load agent and play')
            agent.DQN.model.load_weights(model_path+"DDQN_model.h5")

            done_ctr = 0
            while done_ctr < 5 :
                env.test(agent)
                done_ctr += 1

            env.env.close()
        #Graceful exit 
    except KeyboardInterrupt:
        print('User interrupt..gracefule exit')
        env.env.close()

    if test_mode == False:
        # Prompt for Model save
        print('Save model: Y or N?')
        save = input()
        if save.lower() == 'y':
            model_save(model_path, "DDQN_model.h5", agent, env.reward)
        else:
            print('Model is not saved!')

8. 训练与测试流程

训练流程 ：
1. 如果处于测试模式且训练模式开启，使用随机智能体填充内存。
2. 将随机智能体的内存转移给学习智能体。
3. 学习智能体开始学习，直到达到最大训练回合数。
4. 保存模型和奖励信息。
测试流程 ：
1. 加载预训练的模型。
2. 运行测试，直到完成5次测试。

9. 总结

通过以上步骤，我们实现了一个基于深度Q网络的自动驾驶赛车系统。该系统通过智能体与环境的交互进行学习，能够在赛道上逐渐学会如何驾驶。在实际应用中，我们可以根据需要调整参数，如学习率、折扣因子等，以获得更好的性能。同时，我们还可以对模型进行优化，如增加网络层数、调整卷积核大小等，以提高模型的准确性和稳定性。

通过这个项目，我们不仅学习了如何使用深度Q网络实现自动驾驶，还了解了智能体与环境交互的基本原理，以及如何进行模型的训练和测试。希望本文能够对大家在自动驾驶领域的学习和研究有所帮助。

基于深度Q网络的自动驾驶赛车实现

10. 技术点分析

10.1 深度Q网络（DQN）

深度Q网络是一种结合了深度学习和Q学习的算法，用于解决强化学习中的决策问题。在本项目中，DQN的主要作用是根据赛车当前的状态（即摄像头拍摄的图像）预测每个可能行动的Q值，从而选择最优行动。

网络架构 ：采用了卷积神经网络（CNN）架构，能够有效地处理图像数据。通过多层卷积层提取图像特征，然后通过全连接层输出每个行动的Q值。
双深度Q网络（DDQN） ：为了减少Q值的高估问题，本项目使用了双深度Q网络。通过维护两个网络（基础模型和目标模型），并定期更新目标模型的权重，使得训练更加稳定。

10.2 行动离散化

由于连续行动空间可能有无限个Q值，在深度Q网络的输出层中不可能为每个Q值设置单独的单元。因此，需要将三维连续行动空间离散化为四个感兴趣的行动：刹车、急左转、急右转和直行。这样可以简化问题，提高训练效率。

10.3 智能体与环境交互

智能体（赛车）与环境（赛道）之间的交互是强化学习的核心。智能体根据当前状态选择行动，环境根据行动给出奖励和下一个状态。智能体通过不断地与环境交互，学习如何在赛道上驾驶以获得最大的累积奖励。

奖励机制 ：奖励机制是强化学习中的关键因素，它决定了智能体的学习目标。在本项目中，奖励包括环境给出的原始奖励，以及对赛车在草地上行驶的惩罚。通过合理设置奖励机制，可以引导智能体学习到更优的驾驶策略。
探索与利用 ：在训练初期，智能体需要进行大量的探索，以了解环境和不同行动的效果。随着训练的进行，智能体逐渐减少探索，更多地利用已经学到的知识。本项目通过设置epsilon-greedy策略来平衡探索和利用的关系。

11. 操作步骤总结

11.1 环境搭建

安装必要的库，如OpenAI Gym、Keras等。
配置环境参数，如图像尺寸、堆叠帧数、学习率等。

11.2 模型训练

graph TD;
    A[初始化参数] --> B[创建环境和智能体];
    B --> C{是否为测试模式};
    C -- 是 --> D{是否为训练模式};
    D -- 是 --> E[使用随机智能体填充内存];
    E --> F[将随机智能体的内存转移给学习智能体];
    F --> G[学习智能体开始学习];
    G --> H[达到最大训练回合数];
    H --> I[保存模型和奖励信息];
    D -- 否 --> J[加载预训练的模型和参数];
    J --> K{是否成功加载内存和参数};
    K -- 否 --> E;
    K -- 是 --> G;
    C -- 否 --> L[加载预训练的模型];
    L --> M[运行测试，直到完成5次测试];

11.3 模型测试

加载预训练的模型。
运行测试，观察赛车在赛道上的表现。

12. 优化建议

12.1 调整参数

学习率 ：学习率决定了模型参数更新的步长。如果学习率过大，模型可能会跳过最优解；如果学习率过小，模型的收敛速度会很慢。可以通过实验调整学习率，找到最优值。
折扣因子（gamma） ：折扣因子表示未来奖励的重要程度。较大的折扣因子会使智能体更注重长远利益，较小的折扣因子会使智能体更注重短期利益。可以根据具体问题调整折扣因子。