【强化学习】tensorflow2.0构造DDPG训练LunarLanderContinuous-v2

本文介绍了一种基于深度确定性政策梯度(DDPG)的强化学习算法,用于LunarLander连续环境中的控制问题。通过构建Actor-Critic模型,实现智能体的记忆存储、行为选择和模型训练,展示了如何使用这种算法进行环境互动与学习优化。
from tensorflow.keras import optimizers, layers, models, losses
from collections import deque
import matplotlib.pyplot as plt
import tensorflow as tf
import numpy as np
import random
import gym
import copy

# 配置GPU内存
physical_devices = tf.config.experimental.list_physical_devices('GPU')
tf.config.experimental.set_memory_growth(physical_devices[0], True)

def build_model():
    actor_input = [layers.Input(shape=[8])]
    A_H_1 = layers.Dense(units=1024, activation='relu')(actor_input[0])
    A_H_2 = layers.Dense(units=1024, activation='relu')(A_H_1)
    A_out = layers.Dense(units=2, activation='tanh')(A_H_2)
    actor_model = models.Model(inputs=actor_input, outputs=A_out)

    critic_input = [layers.Input(shape=[8]), layers.Input(shape=[2])]
    C_concat = layers.concatenate(critic_input)
    C_H_1 = layers.Dense(units=1024, activation='relu')(C_concat)
    C_H_2 = layers.Dense(units=1024, activation='relu')(C_H_1)
    C_out = layers.Dense(units=1)(C_H_2)
    critic_model = models.Model(inputs
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值