强化学习（一）——专业术语及OpenAI Gym介绍

原创已于 2022-03-28 16:54:53 修改 · 3.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #OpenAI Gym #python #算法

于 2022-03-28 16:53:16 首次发布

强化学习专栏收录该内容

16 篇文章

订阅专栏

强化学习（一）——专业术语及OpenAI Gym介绍

1. 专业术语
2. OpenAI Gym
- 2.1 安装
- 2.2 简单使用

1. 专业术语

在这里插入图片描述

1.1 Agent（智能体）

强化学习的控制对象。

1.2 Environment（环境）

与智能体交互的对象。

1.3 State s（状态）

智能体所处状态。

1.4 Action a（动作）

智能体所能执行的操作。

1.5 Reward r（奖励）

智能体执行动作后获得奖励。

1.6 Policy π（策略函数）

动作的抽样函数。

1.7 State transition p(s’ |s, a)（状态转移函数）

Agent执行动作后获得的新状态。

1.8 Return U（回报）

未来的累计折扣奖励： $U_t = R_t+\gamma R_{t+1}+ \gamma ^2R_{t+2} + ···$

1.8 Action-value function（动作价值函数）

$Q_π(s_t,a_t)=E[U_t|a_t,s_t]$

1.9 Optimal action-value function（最优动作价值函数）

$Q_π^*(s_t,a_t)=\displaystyle\max_{π}Q_π(s_t,a_t)$

1.10 State-value function（状态价值函数）

$V_π(s_t)=E_A[Q_π(s_t,A)]$

2. OpenAI Gym

2.1 安装

conda create -n gym python=3.6.0
pip install gym matplotlib -i  https://pypi.tuna.tsinghua.edu.cn/simple

2.2 简单使用

import gym
import time

env = gym.make("CartPole-v0")

state = env.reset()

for epoch in range(100):
    env.render()
    time.sleep(1)
    action = env.action_space.sample()
    state,reward,done,info = env.step(action)
    if done:
        print("Finish!")
        break
env.close()