52、复杂环境中用于决策的强化学习(上)

复杂环境中用于决策的强化学习(上)

1. 强化学习概述

强化学习(RL)为学习任意一系列动作以实现特定目标提供了强大的框架。不过,需要记住的是,RL仍是一个相对年轻且活跃的研究领域,存在许多尚未解决的挑战。训练RL模型特别具有挑战性的一个方面是,后续的模型输入依赖于先前采取的动作,这可能导致各种问题,通常会导致不稳定的学习行为。此外,RL中的这种序列依赖性会产生所谓的延迟效应,即时间步t采取的动作可能会在任意数量的步骤后产生未来的奖励。

2. 强化学习系统的智能体 - 环境接口

在所有RL示例中,都有两个不同的实体:智能体和环境。正式来说,智能体是一个学习如何做出决策并通过采取行动与周围环境进行交互的实体。作为采取行动的结果,智能体根据环境的规则接收观察信息和奖励信号。环境是智能体之外的一切,它与智能体进行通信,确定智能体行动的奖励信号及其观察信息。

奖励信号是智能体与环境交互时收到的反馈,通常以标量值的形式提供,可以是正的也可以是负的。奖励的目的是告诉智能体其表现如何。智能体接收奖励的频率取决于给定的任务或问题。例如,在国际象棋游戏中,奖励将在一局完整的游戏结束后根据所有走法的结果(赢或输)来确定。另一方面,我们可以定义一个迷宫,使得奖励在每个时间步长后确定。在这样的迷宫中,智能体试图在其生命周期(即一个回合的持续时间)内最大化其累积奖励。

智能体的状态是其所有变量的集合。例如,对于一个无人机机器人,这些变量可能包括无人机的当前位置(经度、纬度和高度)、无人机的剩余电池电量、每个风扇的速度等等。在每个时间步,智能体通过一组可用动作 $A_t$ 与环境进行交互。基于智能体在状态 $S_t$ 时采取的动作 $A_t$ ,智能体将收到一个奖励信号 $R

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值