python实现强化学习算法代码实战

最新推荐文章于 2025-09-24 17:28:56 发布

原创最新推荐文章于 2025-09-24 17:28:56 发布 · 1.3k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #强化学习

Python实现Q-learning解决CartPole问题，涉及训练、测试及参数调整。

强化学习是机器学习的一种范式，重点关注在特定环境中做出的决策，以最大化预期累积奖励。以下是一个简单的示例，使用 Python 和 OpenAI Gym 库实现了 Q-learning 算法来解决 OpenAI Gym 提供的环境中的问题。

首先，确保你已经安装了 OpenAI Gym 库。如果没有安装，可以使用以下命令进行安装：

pip install gym

然后，以下是一个简单的示例代码，实现了 Q-learning 算法来解决 OpenAI Gym 中的 CartPole 环境问题：

import gym
import numpy as np

# 创建 CartPole 环境
env = gym.make('CartPole-v1')

# 定义 Q-table
state_space = env.observation_space.shape[0]
action_space = env.action_space.n
q_table = np.zeros((state_space, action_space))

# 定义 Q-learning 参数
alpha = 0.1  # 学习率
gamma = 0.99  # 折扣因子
epsilon = 0.1  # epsilon-greedy策略中的随机探索率

# Q-learning算法
num_episodes = 10000
for episode in range(num_episodes):
    state = env.reset()
    done = False

    while not done:
        # 选择动作
        if np.random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()  # 随机选择动作
        else:
            action = np.argmax(q_table[state])  # 选择 Q-value 最高的动作

        # 执行动作并观察环境返回值
        new_state, reward, done, _ = env.step(action)

        # 更新 Q-table
        current_q = q_table[state][action]
        max_future_q = np.max(q_table[new_state])
        new_q = (1 - alpha) * current_q + alpha * (reward + gamma * max_future_q)
        q_table[state][action] = new_q

        state = new_state

    # 输出训练过程中的奖励总和
    if episode % 100 == 0:
        print(f"Episode: {episode}, Total Reward: {reward}")

# 测试训练后的 Q-table
total_rewards = []
num_test_episodes = 100
for _ in range(num_test_episodes):
    state = env.reset()
    done = False
    total_reward = 0

    while not done:
        action = np.argmax(q_table[state])
        new_state, reward, done, _ = env.step(action)
        total_reward += reward
        state = new_state

    total_rewards.append(total_reward)

# 输出测试后的平均奖励
print(f"Average Test Reward: {np.mean(total_rewards)}")

这段代码演示了如何使用 Q-learning 算法来解决 OpenAI Gym 中的 CartPole 环境问题。在训练过程中，算法不断与环境交互并更新 Q-table，然后在测试阶段使用 Q-table 来评估智能体的性能。注意：强化学习的效果受到算法参数和环境选择的影响，需要进行调优和适配才能在不同问题上取得良好的结果。