一、任务描述
·必做:使用强化学习算法,解决MountainCar v0;
使用强化学习算法,解决MountainCarContinous v0
环境配置
python(3.6) + gym(0.15.4) + tensorflow(1.2.1) + keras(2.2.4)
二、算法设计
离散版本
问题背景
现有一小车在两座山峰之间的谷底,小车动力有限,无法直接登上右侧山峰,需要借助动能和势能之间的转化才能到达目的地。在离散版本的MountainCar中,小车的行为(action)是离散的,有向左、向右、静止三个选项,每个状态(state)下小车的观测值包含位置(position)和速度(velocity)两个方面,小车从-0.4—-0.6 之间的任意位置开始运动,在一个 episode步)内抵达 0.5 处即为成功,每走一步获得-1 的回报值。
Action | Push left | No push | Push right |
---|---|---|---|
Num | 0 | 1 | 2 |
State | Max | Min |
---|---|---|
Position | 0.6 | 1.2 |
Velocity | 0. |