补学一下第三章,上次忘学了。链接如下:
第三章 动态规划 (johnjim0816.com)
动态规划是一种求解复杂问题的方法,它将原问题分解为相对简单的子问题,并利用子问题的解来推导原问题的解。动态规划的核心思想是利用问题的最优子结构和无后效性,通过递推或迭代的方式,从已知的初始状态出发,逐步求解出最优策略和最优值函数。
动态规划的应用范围很广泛,不仅在计算机科学中有很多经典的例子,如背包问题、最长公共子序列、最短路径等,也在建筑学中有一定的借鉴意义。例如,建筑设计中的空间分配问题,就可以看作是一个动态规划问题。空间分配问题是指在给定的场地和功能需求下,如何合理地划分和安排各个空间,使得空间的利用率和舒适度最大化。这个问题可以分解为多个子问题,即如何分配和安排每个空间。每个空间的分配和安排取决于其功能、尺寸、形状、位置、朝向、通风、采光等因素,以及与其他空间的关系。每个空间的分配和安排也会影响整体的空间效果和品质。因此,空间分配问题具有最优子结构和无后效性的特点,可以用动态规划的方法来求解。
动态规划的方法可以分为两种:策略迭代和值迭代。策略迭代是指在给定一个策略的情况下,先评估该策略的价值函数,然后根据价值函数来改进策略,如此反复,直到策略收敛到最优策略。值迭代是指在给定一个初始的价值函数的情况下,先根据贝尔曼最优方程来更新价值函数,然后根据价值函数来确定最优策略,如此反复,直到价值函数收敛到最优价值函数。这两种方法都可以保证收敛到最优解,但是在实际应用中,需要根据问题的特点和数据的规模来选择合适的方法。
个人感觉动态规划可以将复杂的问题简化为简单的子问题,从而降低问题的难度和复杂度。同时,动态规划也是一种非常灵活和通用
Datawhale深度强化学习基础学习-Task2心得
最新推荐文章于 2025-12-09 13:26:52 发布
文章探讨了动态规划在解决建筑设计中的空间分配问题,以及免模型预测在强化学习中的应用,包括策略迭代和值迭代方法,同时提到了免模型预测的局限性和在建筑能效优化中的应用。

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



