14、动态规划:确定性与不确定性环境下的应用

动态规划:确定性与不确定性环境下的应用

1. 动态规划基础

动态规划是一种解决优化问题的有效方法,其核心在于将复杂问题分解为一系列相互关联的子问题,并通过求解子问题来得到原问题的最优解。在某些动态规划问题中,状态转移函数起着关键作用。例如,对于预算分配问题,状态转移函数可以表示为 (B_{n – 1} = t_n(x_n, B_n) = B_n – c_nx_n) ,其中 (B_n) 表示第 (n) 阶段的预算,(x_n) 是决策变量,(c_n) 是与决策相关的成本。

1.1 连续状态空间问题处理

当问题具有连续状态空间时,由于决策变量的零 - 一性质,可以构建有限数量的范围。这些范围的断点要么来自上一阶段,要么是由上一阶段的断点加上新程序的成本得到。然而,这并非连续状态空间问题的普遍特性,在大多数情况下,无法直接确定这些范围。通常的做法是将连续状态空间问题转换为离散状态问题,具体步骤如下:
1. 确定状态空间的范围:例如,在成本/效益问题中,总预算必须在零到 (6250) 万美元之间,每个阶段的范围上限由前 (n) 个程序的预算总和决定。
2. 定义网格:在状态空间的范围内,以 (10) 万美元为增量定义网格。这样,就可以仅针对网格上的点计算最优值函数,从而在计算上消除连续状态空间和离散状态空间问题的差异。

2. 确定性动态规划

2.1 确定性过程的特点

在确定性动态规划过程中,如果系统处于状态 (s_n) 且还有 (n) 个阶段要进行,从该阶段和状态的允许决策集中选择决策 (d_n) ,那么阶段回报 (f_n(d_n,s_n)) 和下一阶段的系统状态 (s_{n–1} = t_n(d_

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值