34、智能建筑中能源效率与热舒适度的认知系统

智能建筑中能源效率与热舒适度的认知系统

1. 深度强化学习算法选择

在智能建筑的能源管理与热舒适度控制场景中,由于状态空间是连续的,因此采用了深度Q网络(DQN)这一知名的深度强化学习(DRL)算法。DQN是经典Q学习算法的变体,主要引入了两个关键元素:
- 用于近似函数Q(s, a)的深度神经网络。
- 用于计算模型误差和更新模型参数的训练数据集。

其目标是最小化当前Q(s, a)值与获得奖励r后更新值之间的均方根偏差(RMSD),损失函数定义为:
[r + \gamma \max_{a} Q(s’, a) - Q(s, a)]
其中,(\gamma)是折扣因子,用于权衡当前和过去的奖励。

在算法执行过程中,需要平衡探索所有可能动作和利用过去获得最佳奖励的动作这两个需求。通过参数(\epsilon)来实现这种平衡,(\epsilon)是选择随机动作而非最佳动作的概率。初始时,(\epsilon)设为最大值(\epsilon_{max})以最大化探索,然后逐渐减小到零以实现纯利用。(\epsilon)在运行时间(t)的值为:
[\epsilon = \epsilon_{max}e^{-\lambda \cdot t}]
其中,(\lambda)是衰减因子,(0 < \lambda < 1)。

2. 热模型

2.1 环境设定

研究考虑的环境是一个配备风机盘管单元(FCU)的虚拟办公室。FCU可以开关,开启时可设置三个功率级别之一,因此可能的动作有四个,对应将FCU设置为以下可允许状态之一:[关闭,级别1,级别2,级别3]。级别3对应FCU的额定

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值