Datawhale深度强化学习基础学习-Task2心得

动态规划与免模型预测在建筑学中的应用与挑战
文章探讨了动态规划在解决建筑设计中的空间分配问题,以及免模型预测在强化学习中的应用,包括策略迭代和值迭代方法,同时提到了免模型预测的局限性和在建筑能效优化中的应用。

补学一下第三章,上次忘学了。链接如下:
第三章 动态规划 (johnjim0816.com)
        动态规划是一种求解复杂问题的方法,它将原问题分解为相对简单的子问题,并利用子问题的解来推导原问题的解。动态规划的核心思想是利用问题的最优子结构和无后效性,通过递推或迭代的方式,从已知的初始状态出发,逐步求解出最优策略和最优值函数。
动态规划的应用范围很广泛,不仅在计算机科学中有很多经典的例子,如背包问题、最长公共子序列、最短路径等,也在建筑学中有一定的借鉴意义。例如,建筑设计中的空间分配问题,就可以看作是一个动态规划问题。空间分配问题是指在给定的场地和功能需求下,如何合理地划分和安排各个空间,使得空间的利用率和舒适度最大化。这个问题可以分解为多个子问题,即如何分配和安排每个空间。每个空间的分配和安排取决于其功能、尺寸、形状、位置、朝向、通风、采光等因素,以及与其他空间的关系。每个空间的分配和安排也会影响整体的空间效果和品质。因此,空间分配问题具有最优子结构和无后效性的特点,可以用动态规划的方法来求解。
        动态规划的方法可以分为两种:策略迭代和值迭代。策略迭代是指在给定一个策略的情况下,先评估该策略的价值函数,然后根据价值函数来改进策略,如此反复,直到策略收敛到最优策略。值迭代是指在给定一个初始的价值函数的情况下,先根据贝尔曼最优方程来更新价值函数,然后根据价值函数来确定最优策略,如此反复,直到价值函数收敛到最优价值函数。这两种方法都可以保证收敛到最优解,但是在实际应用中,需要根据问题的特点和数据的规模来选择合适的方法。
        个人感觉动态规划可以将复杂的问题简化为简单的子问题,从而降低问题的难度和复杂度。同时,动态规划也是一种非常灵活和通用

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值