面向调控大数据的数据分析挖掘方法研究

本文围绕设备风险影响度展开,先分析其影响因素,包括设备重要度和隐患,建立计算模型。接着提出面向调控大数据的HR - Tree挖掘方法,定义高风险设备,详细描述算法并给出构建HR - Tree的规则和步骤,以挖掘高风险设备集。

设备风险影响度影响因素分析

设备重要度

1)电压等级。同类设备电压等级越高,设备在电力系统中就越重要

2)设备造价。设备造价是从经济角度衡量设备重要度的指标之一

3)供电区域属性。设备所在的供电区域不同,设备的重要性也不同,设备所处的供电区域越重要,其设备本身也就越重要

4)相关联的设备规模。设备发生故障或者异常时可能会引起与其相关联的设备也失效甚至故障或损坏,从而增加维修工作量和成本

设备隐患

1)告警严重程度
定义告警严重程度为设备告警发生后的告警级别的加权求和,表征设备告警的严重程度,其表达式为:
AR=∑i=1kaiXiAR=\sum_{i=1}^{k}a_{i}X_{i}AR=i=1kaiXi
其中, aia_iai 表示告警级别对应的数据等级, XiX_iXi 表示某次告警级别发生的频次, kkk 表示告警级别的数目

2)故障影响度
定义为设备发生故障后引起的设备事件的等级加权求和
FR=∑i=1kfiNiFR=\sum_{i=1}^{k}f_iN_iFR=i=1kfiNi
其中, fif_ifi 为设备发生故障所引起的事故类型的数据等级, NiN_iNi 为某故障类型发生的频次, kkk 为设备事故类型数目。根据电力事故等级划分标准,设备事故(事件)被划分为7种等级。

3)检修频次
设备检修次数包括计划检修次数和非计划检修次数。

设备风险影响度计算模型

基于设备风险影响度指标体系,建立了设备风险影响度计算模型,表达式如下:
RIi=DIi×DHi(i=1,2,⋯ ,N)RI_i = DI_i \times DH_i(i=1,2,\cdots,N)RIi=DIi×DHi(i=1,2,,N)
其中, RIiRI_iRIi 表示设备 iii 的风险影响度, DHiDH_iDHi 表示设备 iii 的重要度, DHiDH_iDHi 表示设备 iii 的隐患。

选取设备重要度指标集 K={In},n=1,2,⋯ ,N1K=\{I_n\},n=1,2,\cdots,N1K={In},n=1,2,,N1, N1N1N1 为设备重要度影响个数。 I1I_1I1为供电区域属性, I2I_2I2 为设备造价, I3I_3I3为电压等级, I4I_4I4 为相关联的设备规模。设备集 D={di},i=1,2,⋯ ,ND=\{d_i\},i=1,2,\cdots,ND={di}i=1,2,,N, NNN 为设备数目, did_idi 为设备标识,将不能量化的设备重要度指标的值映射到其相对应的数据等级,可量化的重要度指标本身对应其对应的数据等级。构成指标数据等级值序列 si(In)s_i(I_n)si(In), 表示设备 did_idi 在指标 InI_nIn 下的数据等级值。通过设备重要度指标数据等级值序列计算指标 InI_nIn 下的设备相对重要度矩阵 A(In)A^{(I_n)}A(In),其表达式如下:
A(In)=[a11(In)a12(In)⋯a1N(In)a21(In)a22(In)⋯a3N(In)⋯⋯⋯⋯aN1(In)aN2(In)⋯aNN(In)] \mathbf{A}^{(I_n)}=\begin{bmatrix} a_{11}^{(I_n)} & a_{12}^{(I_n)}& \cdots & a_{1N}^{(I_n)}\\ a_{21}^{(I_n)} & a_{22}^{(I_n)}& \cdots & a_{3N}^{(I_n)}\\ \cdots & \cdots & \cdots &\cdots\\ a_{N1}^{(I_n)} & a_{N2}^{(I_n)}& \cdots & a_{NN}^{(I_n)} \end{bmatrix} A(In)=a11(In)a21(In)aN1(In)a12(In)a22(In)aN2(In)a1N(In)a3N(In)aNN(In)
其中, aij(In)a_{ij}^{(I_n)}aij(In) 表示设备 did_idi 在指标 InI_nIn 下相对于设备 djd_jdj 是否重要,重要则用2表示,不重要则用0表示,与 djd_jdj 同等重要则用1表示。当 i̸≡ji\not\equiv ji̸j 时,
aij(In)={2,si(In)&gt;sj(In)1,si(In)=sj(In)0,si(In)&lt;sj(In) a_{ij}^{(I_n)}= \left\{\begin{matrix} 2, &amp; s_i(I_n)&gt;s_j(I_n)\\ 1, &amp; s_i(I_n)=s_j(I_n)\\ 0, &amp; s_i(I_n)&lt;s_j(I_n) \end{matrix}\right. aij(In)=2,1,0,si(In)>sj(In)si(In)=sj(In)si(In)<sj(In)
对同一指标 InI_nIn 下的设备相对重要度矩阵的行向量元素进行求和,得到 InI_nIn 下设备 did_idi 的相对重要度 aiIn=∑j=1Naij(In)a_i^{I_n} = \sum_{j=1}^{N}a_{ij}^{(I_n)}aiIn=j=1Naij(In)aiIna_i^{I_n}aiIn描述了一个指标 InI_nIn 下的相对重要度,为了合理科学的计算设备的重要度,需要综合全部指标 InI_nIn 下的设备相对重要度。利用AHP法获取各重要指标的不同权重。利用构造设备重要度指标的判断矩阵求出最大特征值 λmax\lambda_{max}λmax 对应的特征向量 W\mathbf{W}W ,即权重向量 (w1,w2,⋯&ThinSpace;,wN1)(w_1,w_2,\cdots,w_{N1})(w1,w2,,wN1) 。对 W\mathbf{W}W 作归一化处理,得到设备重要度指标的合理相对权重。
wi′=wi∑i=1N1wiw_i^{&#x27;}=\frac{w_i}{\sum_{i=1}^{N1}w_i}wi=i=1N1wiwi
向量 W′=[w1′,w2′,⋯&ThinSpace;,wN1′]W_{&#x27;}=[w_1^{&#x27;},w_2^{&#x27;},\cdots,w_{N1}^{&#x27;}]W=[w1,w2,,wN1] 为设备重要度指标归一化后的相对权重。将设备 iii 的重要度指标加权求和就可以得到这个设备的综合相对重要度 aisuma_i^{sum}aisum:
aisum=∑n=1N1wn′×ai(In)a_i^{sum}=\sum_{n=1}^{N1}w_{n}^{&#x27;}\times a_i^{(I_n)}aisum=n=1N1wn×ai(In)
采用线性归一化法来避免设备重要度计算的结果之间的差异过大或者过小,表达式如下:
f(z)=Bzf(\mathcal{z})=B\mathcal{z}f(z)=Bz
式中, z\mathcal{z}z 为待归一化的变量, BBB 为调节因子,用于根据实际需要来调节归一化后的数据范围,本文中取 B=1/max(z)B=1/max(\mathcal{z})B=1/max(z) ,计算得到设备重要度的取值范围 (0,1](0,1](0,1]。将 aisuma_i^{sum}aisum 带入上式,计算得到归一化重要度值: DIi=f(aisum)DI_i = f(a_i^{sum})DIi=f(aisum)。同理计算出设备 iii 的设备潜在隐患 DHiDH_iDHi ,则可以计算出设备 iii 的风险度影响度值。

面向调控大数据的HR-Tree挖掘方法

高风险设备定义

在设备故障事务中挖掘高风险设备的过程中,设备 did_idi 的风险,记为 risk(dp)risk(d_p)risk(dp), 指设备 dpd_pdp 的支持度 support(dp)support(d_p)support(dp) 和设备风险影响度 F(dp)F(d_p)F(dp) 的乘积,即:
risk(dp)=supprt(dp)×F(dp)risk(d_p) = supprt(d_p)\times F(d_p)risk(dp)=supprt(dp)×F(dp)
定义电网中的一定风险阈值 minriskmin_riskminrisk,若 minrisk≤risk(dp)min_risk \leq risk(d_p)minriskrisk(dp), dpd_pdp 是高风险设备,否则,就是低风险设备。

HR-Tree挖掘方法

算法描述

为了方便描述算法,作如下定义:
定义1 单个设备 dpd_pdp 在单条事务T_l中的设备风险值为 R(dp,Tl)R(d_p,T_l)R(dp,Tl),表达式如下:
R(dp,Tl)=F(dp)×q(dp,Tl)R(d_p,T_l) = F(d_p)\times q(d_p,T_l)R(dp,Tl)=F(dp)×q(dp,Tl)
其中, F(dp)F(d_p)F(dp) 指设备 dpd_pdp 的风险影响度, q(dp,Tl)q(d_p,T_l)q(dp,Tl) 表示事务 TlT_lTl 在设备 dpd_pdp 中出现故障的频次。

定义2 设备集 XXX 在事务 TlT_lTl 中的设备风险记为 R(X,Tl)R(X,T_l)R(X,Tl), 定义为事务 TlT_lTl 中设备集 XXX 中所包含的所有设备的风险值之和,其表达式如下:
R(X,Tl)=∑dp∈X∩X⊆Tl1R(dp,Tl)R(X,T_l)=\sum_{d_p\in X \cap X \subseteq T_{l1}}R(d_p,T_l)R(X,Tl)=dpXXTl1R(dp,Tl)

定义3 设备集 XXX 在设备事务集 SSS 中的设备风险记为 R(XR(XR(X ,定义设备集 XXX 中所有事务中的设备风险之和,其表达式如下:
R(X)=∑X⊆Tl∩Tl1∈SR(X)=\sum_{X\subseteq T_l \cap T_{l1}\in S}R(X)=XTlTl1S

定义4 事务 TlT_lTl风险记作为 TR(Tl)TR(T_l)TR(Tl) ,定义为事务 TlT_lTl 中所有设备的风险之和,其表达式如下:
TR(Tl)=R(Tl,Tl)TR(T_l)=R(T_l,T_l)TR(Tl)=R(Tl,Tl)

定义5 设备集 XXX 的事务权重风险记为 TWR(X)TWR(X)TWR(X), 定义为包含设备集 XXX 的所有事务风险值的总和, 其表达式如下:
TWR(X)=∑X⊆Tl∩Tl∈SR(Tl,Tl)TWR(X) = \sum_{X \subseteq T_l \cap T_l \in S}R(T_l,T_l)TWR(X)=XTlTlSR(Tl,Tl)

定义6 设备最小风险阈值为 minriskmin_riskminrisk ,定义为设备故障事务数据集中事务总风险的一定百分比,表达式如下:
minrisk=percent×∑Tl∈STR(Tl)min_risk = percent \times \sum_{T_l \in S}TR(T_l)minrisk=percent×TlSTR(Tl)

构建HR-Tree

HR-Tree构建过程中涉及到两个规则如下:
规则1:如果某设备的事务权重风险值小于设备的最小阈值,则其和其所有超集对于挖掘高风险的设备集均是无效的,将该设备从设备故障事务集中删除。

规则2:如果设备集 XXX 是一高事务权重风险设备集,则其子集也一定是一高事务权重风险设备集。

HTWRHTWRHTWR 为数据集 sss 中所有高事务权重风险设备集合, HRHRHRsss 中的全部高风险设备的集合,如果两者的最小风险阈值相同,则必有 HR⊆HTWRHR\subseteq HTWRHRHTWR

步骤1,建立设备 dpd_pdp 的设备风险影响度 F(dp)F(d_p)F(dp) 和海量历史数据的先验知识 S(d)S(d)S(d), 建立原始设备故障事务数据集 sss

步骤2,扫描 sss ,统计所有事务的事务风险值 TRTRTR 和设备的事务权重风险值 TWRTWRTWR 。依照设备的 TWRTWRTWR 进行降序排列,根据设备最下风险阈值和规则1对设备无效项进行剪枝。

步骤3,利用规则2和经步骤2处理后的设备故障书屋数据集构造HR-Tree。

构建HR-Tree的主要规则如下:

1)如果设备 dpd_pdp 为非候选高风险设备,则其所有的超集均不是高风险设备集;

2)如果设备 dpd_pdp 的事务加权风险值小于设备最小风险阈值,则其和其超集对于挖掘高风险设备集来说都是无效的,应当舍弃;

3)将全局非候选高风险设备从原始数据集移除,并且从相应的事务设备风险中减去全局非候选设备的设备风险

4)在构造HR-Tree时,通过移除子孙节点的设备风险来降低节点设备的估计风险

步骤4,从HR-Tree中按照递归的方式找出所有的候选高风险设备集,扫描原始设备故障事务数据集,计算候选高风险设备集的真正设备风险值,选择不小于设备风险阈值的设备集,输出高风险设备集。由上述的设备HR-Tree中递归生成候选高风险设备集。主要步骤如下:

1)在HR-Tree中跟踪路径由下而上一次构造每个设备项的条件模式基

2)利用条件模式树中的信息构造局部设备HR-Tree

3)递归的从局部设备HR-Tree中挖掘出候选高风险设备集,然后扫描原始故障事务数据集找出真正的高风险设备集

局部路径风险:将路径中包含该设备的风险进行相加

设备风险最小值:是指该设备在其包含该设备的事务中的设备最小风险值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值