3、深度强化学习算法全解析

深度强化学习算法全解析

1. 强化学习中的可学习函数

在强化学习领域,智能体与环境的交互至关重要。下面的算法 1.1 展示了马尔可夫决策过程(MDP)的控制循环:

Algorithm 1.1
MDP control loop
1: Given an env (environment) and an agent:
2: for episode = 0, . . . , MAX_EPISODE do
3:
    state = env.reset()
4:
    agent.reset()
5:
    for t = 0, . . . , T do
6:
        action = agent.act(state)
7:
        state, reward = env.step(action)
8:
        agent.update(action, state, reward)
9:
        if env.done() then
10:
            break
11:
        end if
12:
    end for
13: end for

这个算法描述了智能体和环境在多个回合和时间步上的交互过程。每个回合开始时,环境和智能体都会被重置,环境会产生一个初始状态。然后,智能体根据当前状态产生一个动作,环境根据该动作产生下一个状态和奖励,进入下一个时间步。这个“智能体行动 - 环境反馈”的循环会一直持续,直到达到最大时间步 T 或者环境终止。其中, agent.update 方法封装了智能体的学习算法,它会在多个时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值