智能建筑中能源效率与热舒适度的认知系统
1. 深度强化学习算法选择
在智能建筑的能源管理与热舒适度控制场景中,由于状态空间是连续的,因此采用了深度Q网络(DQN)这一知名的深度强化学习(DRL)算法。DQN是经典Q学习算法的变体,主要引入了两个关键元素:
- 用于近似函数Q(s, a)的深度神经网络。
- 用于计算模型误差和更新模型参数的训练数据集。
其目标是最小化当前Q(s, a)值与获得奖励r后更新值之间的均方根偏差(RMSD),损失函数定义为:
[r + \gamma \max_{a} Q(s’, a) - Q(s, a)]
其中,(\gamma)是折扣因子,用于权衡当前和过去的奖励。
在算法执行过程中,需要平衡探索所有可能动作和利用过去获得最佳奖励的动作这两个需求。通过参数(\epsilon)来实现这种平衡,(\epsilon)是选择随机动作而非最佳动作的概率。初始时,(\epsilon)设为最大值(\epsilon_{max})以最大化探索,然后逐渐减小到零以实现纯利用。(\epsilon)在运行时间(t)的值为:
[\epsilon = \epsilon_{max}e^{-\lambda \cdot t}]
其中,(\lambda)是衰减因子,(0 < \lambda < 1)。
2. 热模型
2.1 环境设定
研究考虑的环境是一个配备风机盘管单元(FCU)的虚拟办公室。FCU可以开关,开启时可设置三个功率级别之一,因此可能的动作有四个,对应将FCU设置为以下可允许状态之一:[关闭,级别1,级别2,级别3]。级别3对应FCU的额定
超级会员免费看
订阅专栏 解锁全文
691

被折叠的 条评论
为什么被折叠?



