强化学习系列文章(二十五):利用遗传规划算法解决CartPole问题

强化学习系列文章(二十五):利用遗传规划算法解决CartPole问题

主程序

import gym
import numpy as np
import cgp
from cgp import *
import matplotlib.pyplot as plt

n_eps = 300
Mu = 10
Lambda = 40

env = gym.make('CartPole-v1')
env = env.unwrapped

r_list = []
pop = create_population(Mu+Lambda)
for e in range(n_eps):
    for ind in pop:
        obs = env.reset()
        done = False
        reward = 0
        while not done:
            x, xx, w, ww = obs
            action = 0 if ind.eval(x, xx, w, ww) > 0 else 1
            obs,r,done,_ = env.step(action)
            reward += r
            if reward >= 1500: break
        ind.fitness = reward
        
    pop = evolve(pop, 0.015, Mu, Lambda)
    print(e,'\t',pop[0].fitness)
    r_list.append(pop[0].fitness)

plt.plot(r_list)
plt.show()

遗传规划cgp.py

"""
Cartesian genetic programming
"""
import operator as op
import random
import copy
import math
from settings import VERBOSE, N_COLS, LEVEL_BACK


class Function:
    """
    A general function
    arity: 函数的输入参数的数量
    """

    def __init__(self, f, arity, name=None):
        self.f = f
        self.arity = arity
        self.name = f.__name__ if name is None else name

    def __call__(self
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值