通过短期故障预测提高网格的可靠性及分布式数据挖掘框架研究
数据预处理与建模方法
数据预处理是提高网格可靠性短期故障预测准确性的重要基础。原始数据的预处理包含多个初始步骤,如掩盖缺失值、(基于时间的)重采样、离散化等。不同组的数据采集频率不同,A和C组每分钟采集一次,B组每10分钟采集一次,D组每30 - 60分钟采集一次。为了统一数据,将其重采样为1分钟的采样周期。
为了简化数据,将所有缺失或过时的值设为 -1,并且不区分错误的严重程度。在属性数据中,-1表示“无效”值,0表示正常状态,1表示故障状态,这样修改后的(原始和派生)值向量被称为样本。
在预处理的最后一步,会为对应时间T的样本分配一个表示未来故障的(真实)标签。具体操作是,先确定哪个sam属性S代表故障指标,如果S在区间[T + 1, T + p]内的任何值为1,则将该标签设为1;否则设为0。这里的参数p被称为提前时间,即如果sam属性S在随后的p分钟内的任何时间取到表示故障的值,标签就表明未来会发生故障。
预测方法基于模型,这里使用的是基于测量的模型。这种模型会根据传感器值和模拟模型输出(从离线数据计算得出)之间的历史关系自动推断。其中,基于分类算法或分类器的模型是最流行和强大的一类,适用于输出为离散值的情况,并且能结合多个输入甚至数据函数,比原始数据更能揭示其信息内容。
分类器是一个将d维实值或离散值向量(称为属性或特征)映射到离散值(称为类标签)的函数。在本文中,每个这样的向量就是一个样本,类标签对应于预处理中定义的真实标签。在将分类器用作预测模型之前,需要在一组(样本,真实标签)对上进行训练,这些对被称为训练数据,用D表示用于此目的的最大样本量。
训练
超级会员免费看
订阅专栏 解锁全文
4727

被折叠的 条评论
为什么被折叠?



