关于动态规划算法的简单理解

最新推荐文章于 2025-03-08 21:57:45 发布

原创最新推荐文章于 2025-03-08 21:57:45 发布 · 1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#算法

算法专栏收录该内容

2 篇文章

订阅专栏

本文探讨了如何利用动态规划解决最优序列问题，通过定义状态、状态分数与状态转移，将复杂度从O(D2∗D3∗...∗Dk)T降低至O(D2∗D3∗...∗T)。适用于遗传算法、蚁群算法等优化问题。

这次国赛选了B题，虽然拉了但是在做的过程中有一些小理解，想在这里分享出来。

对于求解最优序列的问题，序列中的每一个位置的点有自己的状态，最优序列即为求得最优的状态序列，这涉及三部分内容：
1. 定义状态
2. 定义状态的分数
3. 定义状态转移
定义状态： 把一个点的状态抽象为一个k维向量 $x_1,x_2,...,x_k)$ ，该向量的每一维度都代表该状态的不同维度，这些维度的取值合在一起构成了这个内容的状态；
需要注意的是，任何一个状态都有其最基础的一个维度：时间维度，这个时间也可以理解为其在状态序列中的位置；
以B题第一关为例，向量有四个维度分别是时间，玩家位置，玩家消耗的水，玩家消耗的食物，基础维度时间即代表该玩家是在沙漠上的第几天。每一个维度都有不同取值，代表了不同的状态。
定义状态的分数： 即为每一个状态 $x = (x_1,x_2,...,x_k)$ 维护一个分数 $ω\omega$ ，分数高代表这个状态更优，记 $x.\omega$ ；
值得注意的是，每一个状态的分数都与其前序状态密切相关；以B题第一关为例，这个 $ω\omega$ 就是该状态下玩家剩余的资金，其与玩家前一天剩余的资金密切相关。
定义状态转移： 首先，定义当前状态 $x_c$ ， $xc∈(c,∗,∗,...,∗)x_c \in (c,*,*,...,*)$ ， $\in {0,1,2,...,T}$ ，那么有 $x_{c+1} = Next(x_c)$ ，其中 $Next(x_c)$ 代表 $x_c$ 的下一个状态
假设 $x_{c+1} = (x_1',x_2',...,x_k')$ ，考虑 $∃xc′≠xc\exists x_c' \neq x_c$ ，并且 $Next(x_c') = x_{c+1}$ ，这便是子问题之间的重复性，带有这个特征的问题可以使用动态规划算法求解：
即令 $xcˉ={xc∣xc∈(c,∗,∗,...,∗)∧Next(xc)=xc+1}\bar{x_c} = \{x_c| x_c \in (c,*,*,...,*) \wedge Next(x_c) = x_{c+1}\}$ ，那么有 $xc+1=argmax(f(xcˉ)+Cost(xc→xc+1))(*)x_{c+1} = argmax(f(\bar{x_c}) + Cost(x_c \rightarrow x_{c+1})) \tag{*}$ 其中 $Cost(xc→xc+1)Cost(x_c \rightarrow x_{c+1})$ 代表从 $x_c$ 转移到 $x_{c+1}$ 带来的分数变化，每一个分数不同的 $x_c$ 都可能转移到分数不同的 $x_{c+1}$ ，即
$f(xc)+Cost(xc→xc+1)=f(xc+1)f(x_c) + Cost(x_c \rightarrow x_{c+1}) = f(x_{c+1})$
因此， $(*)$ 式可以转化为
$xc+1=argmax(f(xc+1ˉ))x_{c+1} = argmax(f(\bar{x_{c+1}}))$
其中 $xc+1ˉ=Next(xcˉ)\bar{x_{c+1}} = Next(\bar{x_c})$ ， $argmax(ω)argmax(\omega)$ 代表选出 $ω\omega$ 最大的 $x_c$

之后重复上述转移过程，每一个 $x_c$ 都会是具有最高分数的，即最优的，最后有
$xT=argmax(f(xTˉ))x_{T} = argmax(f(\bar{x_{T}}))$
$x_{T}$ 即为序列的最终位置的最优状态，根据此状态回溯其前序状态，则可以得到序列中每一个位置的最优状态与其转移。
动态规划是用于求解会有状态重合的时候的算法，可以把 $O(D_2 * D_3 *...*D_k)^T$ 的复杂度降低到 $O(D_2 * D_3 * ... *T)$ ，其中 $D_i$ 是 $x$ 中第 $i + 1$ 维的维度，这里不知道说的对不对，希望大佬指正
可以拓展到各种优化算法上，遗传、蚁群等等感觉都差不多，只是定义状态的分数和转移有一点不同，但感觉殊途同归。