3、随机库存控制中部分可观测马尔可夫决策过程的文化算法

随机库存控制中部分可观测马尔可夫决策过程的文化算法

1. 引言

强化学习和进化计算是解决部分可观测马尔可夫决策过程(POMDPs)的两种竞争方法,POMDPs 在人工智能的许多领域中都会出现。本文将介绍这两种方法的一种新的混合方法,并将其应用于随机库存控制问题。

1.1 POMDPs

马尔可夫决策过程(MDPs)可以对结果部分随机、部分受智能体控制的顺序决策情况进行建模。MDP 的状态具有马尔可夫属性:如果已知时间 t 时 MDP 的当前状态,那么到时间 t + 1 时向新状态的转移与所有先前状态无关。MDP 可以通过将其建模为线性规划在多项式时间内(相对于其状态空间的大小)求解,但多项式的阶数足够大,使得在实践中求解困难。

如果去除马尔可夫属性,就得到了部分可观测马尔可夫决策过程(POMDP),一般来说,POMDP 在计算上是难以处理的。这种情况在许多应用中都会出现,可能是由于部分知识导致的,例如机器人通常必须仅使用对其环境的部分知识进行导航。机器维护和不确定性下的规划也可以建模为 POMDP。

形式上,POMDP 是一个元组 ⟨S, A, T, R, O, Ω⟩,其中 S 是状态集,A 是动作集,Ω 是观测集,R : S×A → ℜ 是奖励函数,T : S×A → Π(S) 是转移函数,Π(·) 表示有限集上的离散概率分布集。在每个时间段 t,环境处于某个状态 s ∈ S,智能体采取动作 a ∈ A,这会以概率 P(s′|s, a) 转移到状态 s′,产生由 R 给出的即时奖励,并对环境产生由 T 给出的影响。智能体的决策基于其由 O : S × A → Π(Ω) 给出的观测。

在解决 POMDP 时,目标是找到

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值