强化学习在建筑能源控制中的发展与应用

本文探讨了强化学习(RL)在建筑能源控制中的应用,指出训练耗时、安全性和模型泛化性是主要挑战。对比了基于规则的方法和MPC的控制策略,强调RL的潜力。RL在状态设置、行动选择和奖励函数设计上具有独特性,但训练数据需求大。为加速训练,提出了降维、问题分解和多阶段方法。同时,通过预训练和备用控制器确保安全性与鲁棒性。

强化学习在各个领域发挥着重要的作用,但在建筑能源控制领域却刚刚崭露头角,限制其发展的因素如下:1)训练耗时,数据要求高。2)安全性和鲁棒性要求。3)提高RL模型的泛华性。

一、能源控制领域的几种常见方法

(1)基于规则的方法
它包含两个步骤:1)基于一些预先设定的时间表来选择设定点。2)使用PID等方法跟踪设定点。

其缺点为:1)没有考虑预测信息。2)不是针对特定建筑定制的。
(2)MPC(model predictive control)
根据名字可以看出其对应三个步骤,1)模型:描述建筑物和整个系统的模型。2)预测性:预测干扰,如外部天气等。3)控制:将预测信息输入到开发的模型中解决问题。

MPC需要专业知识。

(3)强化学习

二、能源控制的RL

2.1 算法

(1)state设置

markov的下一个状态仅和当前状态有关,但在建筑动力学中这是不成立的,还需要考虑历史状态信息

过长的历史会导致维数灾难,学者使用自动编码器(auto-encoder)来解决这个问题,将历史信息编码到隐状态。

除了历史状态,预测未来状态也很必要,MPC已经用过,可以考虑应用到RL中。

(2)action

大多数的action维度小于4.大多数都将控制设定在高水平,即室温设定值。少量实施中级控制,如送风温度或VAV箱的流速等。

(3) reward

主要包含三个部分:1)舒适性。2)节能。3)负载灵活性。

负载灵活性可以看做和节能的目标是一样的。

乘客舒适度是负载灵活性和节能的先决条件,所有研究都将乘客舒适度列为至少一个控制目标。节能是另一个常见的目标。

结合多目标的方法:1)加权求和、2)将多目标优化形成为约束优化问题。

对超出温度上下界的行为施加软约束。

(4)环境

on-policy需要与真实环境交互,不可行。提出off-policy。

虚拟环境。

2.2 加速训练的方法

需要大约三年的数据。

(1)减小状态和动作的维度。
使用自动编码器来实现降维。

(2)将多个行动变量分解为多个简单的问题。
(3)多阶段方法加快训练。

2.3 安全性,鲁棒性

(1)安全性:
1.设置备用控制器,当温度接近或即将超过舒适边界时,备用控制器被激活以覆盖RL控制器。
2.预训练控制器,使其足够安全,可以在真实环境中实施。虚拟环境,专家知识,使用其他方法得到的策略来预训练控制器。

采用PyQt5框架Python编程语言构建图书信息管理平台 本项目基于Python编程环境,结合PyQt5图形界面开发库,设计实现了一套完整的图书信息管理解决方案。该系统主要面向图书馆、书店等机构的日常运营需求,通过模块化设计实现了图书信息的标准化管理流程。 系统架构采用典型的三层设计模式,包含数据存储层、业务逻辑层和用户界面层。数据持久化方案支持SQLite轻量级数据库MySQL企业级数据库的双重配置选项,通过统一的数据库操作接口实现数据存取隔离。在数据建模方面,设计了包含图书基本信息、读者档案、借阅记录等核心数据实体,各实体间通过主外键约束建立关联关系。 核心功能模块包含六大子系统: 1. 图书编目管理:支持国际标准书号、中国图书馆分类法等专业元数据的规范化著录,提供批量导入单条录入两种数据采集方式 2. 库存动态监控:实时追踪在架数量、借出状态、预约队列等流通指标,设置库存预警阈值自动提醒补货 3. 读者服务管理:建立完整的读者信用评价体系,记录借阅历史违规行为,实施差异化借阅权限管理 4. 流通业务处理:涵盖借书登记、归还处理、续借申请、逾期计算等标准业务流程,支持射频识别技术设备集成 5. 统计报表生成:按日/月/年周期自动生成流通统计、热门图书排行、读者活跃度等多维度分析图表 6. 系统维护配置:提供用户权限分级管理、数据备份恢复、操作日志审计等管理功能 在技术实现层面,界面设计遵循Material Design设计规范,采用QSS样式表实现视觉定制化。通过信号槽机制实现前后端数据双向绑定,运用多线程处理技术保障界面响应流畅度。数据验证机制包含前端格式校验后端业务规则双重保障,关键操作均设有二次确认流程。 该系统适用于中小型图书管理场景,通过可扩展的插件架构支持功能模块的灵活组合。开发过程中特别注重代码的可维护性,采用面向对象编程范式实现高内聚低耦合的组件设计,为后续功能迭代奠定技术基础。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cxp_001

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值