数学建模学习-强化学习(Reinforcement Learning)教程(27)

FFMXjy

已于 2025-01-19 15:04:35 修改

阅读量1.0k

点赞数 8

分类专栏：数学建模学习-传统算法、机器学习、深度学习系列课程文章标签：数学建模学习

于 2025-01-19 15:03:13 首次发布

本文链接：https://blog.youkuaiyun.com/FFMXjy/article/details/145242977

版权

数学建模学习-传统算法、机器学习、深度学习系列课程专栏收录该内容

49 篇文章

订阅专栏

数学建模学习-强化学习(Reinforcement Learning)教程(27)

写在最前

注意本文的相关代码及例子为同学们提供参考，借鉴相关结构，在这里举一些通俗易懂的例子，方便同学们根据实际情况修改代码，很多同学私信反映能否添加一些可视化，这里每篇教程都尽可能增加一些可视化方便同学理解，但具体使用时，同学们要根据实际情况选择是否在论文中添加可视化图片。

系列教程计划持续更新，同学们可以免费订阅专栏，内容充足后专栏可能付费，提前订阅的同学可以免费阅读，同时相关代码获取可以关注博主评论或私信。

强化学习简介

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支，它主要关注如何让智能体(Agent)在与环境的交互中学习最优的行为策略。与监督学习和无监督学习不同，强化学习通过"试错"的方式，让智能体从环境反馈的奖励信号中学习，逐步改进自己的行为策略。

强化学习的核心要素包括：

智能体(Agent)：学习和决策的主体
环境(Environment)：智能体所处的外部世界
状态(State)：环境在某一时刻的描述
动作(Action)：智能体可以采取的行为
奖励(Reward)：环境对智能体行为的反馈
策略(Policy)：智能体的行为准则

Q-learning算法原理

Q-learning是一种经典的强化学习算法，它通过学习状态-动作值函数(Q函数)来找到最优策略。Q函数表示在某个状态下采取某个动作的长期期望回报。

Q-learning的核心公式：

$Q(s_t, a_t) \leftarrow (1-\alpha)Q(s_t, a_t) + \alpha[r_t + \gamma \max_{a}Q(s_{t+1}, a)]$

其中：

$Q(s_t, a_t)$ ：在状态 $s_t$ 下采取动作 $a_t$ 的Q值
$\alpha$ ：学习率，控制更新步长
$r_t$ ：即时奖励
$\gamma$ ：折扣因子，权衡即时奖励和未来奖励
$max_{a}Q(s_{t+1}, a)$ ：下一状态的最大Q值

算法流程：

初始化Q表格
对于每个回合(episode)：
- 初始化环境，获得初始状态
- 对于每个时间步：
  - 使用ε-贪婪策略选择动作
  - 执行动作，观察奖励和下一状态
  - 更新Q值
  - 转移到下一状态
- 直到达到终止条件

算法特点

优点：

模型无关性：不需要知道环境的转移概率
离线学习：可以从历史数据中学习
收敛性保证：在适当条件下可以收敛到最优策略
实现简单：算法结构清晰，易于理解和实现

缺点：

维度灾难：状态空间大时Q表格会变得很大
收敛速度：可能需要大量样本才能收敛
离散空间：基础版本只适用于离散状态和动作空间
探索-利用权衡：需要合理设置探索策略

环境准备

本教程使用Python实现Q-learning算法，需要以下依赖包：

numpy>=1.21.0
matplotlib>=3.4.0
seaborn>=0.11.0

可以通过以下命令安装依赖：

pip install -r requirements.txt

代码实现

1. 环境类实现

首先实现一个简单的网格世界环境：

class GridWorld:
    def __init__(self, size=5):
        self.size = size
        self.state = 0  # 起始位置在左上角
        self.goal = size * size - 1  # 目标位置在右下角
        # 定义动作: 0=上, 1=右, 2=下, 3=左
        self.action_space = [0, 1, 2, 3]
        
    def reset(self):
        self.state = 0
        return self.state
    
    def step(self, action):
        row = self.state // self.size
        col = self.state % self.size
        
        # 根据动作更新位置
        if action == 0:  # 上
            row = max(0, row - 1)
        elif action == 1:  # 右
            col = min(self.size - 1, col + 1)
        elif action == 2:  # 下
            row = min(self.size - 1, row + 1)
        elif action == 3:  # 左
            col = max(0, col - 1)
            
        self.state = row * self.size + col
        
        # 判断是否到达目标
        done = (self.state == self.goal)
        reward = 1.0 if done else -0.1  # 到达目标奖励为1，其他步骤惩罚0.1
        
        return self.state, reward, done

2. Q-learning智能体实现

class QLearning:
    def __init__(self, state_size, action_size, learning_rate=0.1, discount_factor=0.95, epsilon=0.1):
        self.q_table = np.zeros((state_size, action_size))
        self.lr = learning_rate
        self.gamma = discount_factor
        self.epsilon = epsilon
        
    def get_action(self, state):
        # ε-贪婪策略选择动作
        if np.random.random() < self.epsilon:
            return np.random.choice(len(self.q_table[state]))
        return np.argmax(self.q_table[state])
    
    def update(self, state, action, reward, next_state):
        # Q-learning更新公式
        old_value = self.q_table[state, action]
        next_max = np.max(self.q_table[next_state])
        new_value = (1 - self.lr) * old_value + self.lr * (reward + self.gamma * next_max)
        self.q_table[state, action] = new_value

3. 训练函数实现

def train_agent():
    # 环境和智能体初始化
    env = GridWorld(size=5)
    agent = QLearning(state_size=env.size * env.size, action_size=4)
    
    # 训练参数
    episodes = 1000
    max_steps = 100
    rewards_history = []
    
    # 训练循环
    for episode in range(episodes):
        state = env.reset()
        total_reward = 0
        
        for step in range(max_steps):
            action = agent.get_action(state)
            next_state, reward, done = env.step(action)
            
            agent.update(state, action, reward, next_state)
            state = next_state
            total_reward += reward
            
            if done:
                break
                
        rewards_history.append(total_reward)
        
        # 每100个episode打印一次平均奖励
        if (episode + 1) % 100 == 0:
            avg_reward = np.mean(rewards_history[-100:])
            print(f"Episode {episode + 1}, Average Reward: {avg_reward:.2f}")
    
    return agent, rewards_history