38、多智能体系统强化学习全解析

多智能体系统强化学习全解析

1. 强化学习基础

强化学习基于一个简单的观察:奖励期望的行为,抑制不期望的行为会导致行为的改变。在时间步 t,智能体处于状态 st 并采取行动 at,之后会收到奖励 rt 并转移到状态 st+1。强化学习的目标是找到一个策略,即从状态到行动的映射,以最大化接收到的强化信号。强化信号是一个标量值,通常负数表示惩罚,正数表示奖励。与监督学习不同,强化学习没有教师提供特定情况下的正确行动,而是通过尝试行动并接收行动后果的信号来找出最佳行动,因此被认为是一种“半监督”学习技术。而且,一个行动的后果可能不会在执行后立即显现,而是在采取一系列其他行动之后才会体现,这意味着所选行动不仅会影响即时奖励或惩罚,还会影响未来可能收到的强化。

2. 马尔可夫决策过程(MDP)

大多数单智能体强化学习研究基于马尔可夫决策过程(MDP)框架。MDP 是完全可观察世界中的顺序决策问题,由元组 ⟨S, A, T, R⟩ 定义,其中 S 是有限的状态集,A 是智能体可用的有限行动集。MDP 遵循马尔可夫属性,即未来的动态、转移和奖励完全取决于当前状态。行动 a 在状态 s 下导致状态 s′ 的概率由转移矩阵函数 T : S × A × S → [0, 1] 表示,记为 T(s, a, s′),且对于所有行动 a 和状态 s、s′,有 0 ≤ T(s, a, s′) ≤ 1,且 ∑s′∈S T(s, a, s′) = 1。奖励函数 R : S → R 返回在状态 s 采取行动 a 后的奖励 R(s, a)。

转移函数 T 和奖励函数 R 通常被称为环境模型。MDP 中的学习任务是找到一个策略 π : S → A,以选择具有最大预期(折扣)未来奖励的行动。策略的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值