可靠性性管理最早在军工和航空航天领域大规模应用,目前对于可靠性设计、可靠性预计、可靠性试验、可靠性增长、失效分析与持续改进等领域都有了非常成熟的体系方法论。并且这些方法已经广泛应用在各类制造业。
但是在发电厂仪控设备管理领域,一些方法存在各类水土不服或者困难。
1.故障数据不足
传统的基于统计学的分析如MTBF或新流行的机器学习方法,都需要一定数量的故障数据进行计算。例如对于MTBF等指标,故障数量大于10个才能把置信度区间缩在一个可以比较有意义的区间。如果想看故障率逐年变化的趋势,就需要年年大于10个。
但是对于喜欢购买高可靠性设备的电厂而言,大部分型号的卡件常年故障率不足100个fit(行业统计值),这就得上千块卡件的使用量了。对于IO卡件单一电厂还有可能满足要求,对于特定型号的CPU等卡件,全集团加起来可能都凑不够。
因此用传统的故障率等统计指标指导可靠性预计、维护周期等方式就会存在天然障碍。除非从设计采购时就能够考虑尽量标准化,使用相同的型号设备。但仪控设备更新换代又比较快,导致一代设备总使用量可能都不多,还要面临多公司、多分公司、多部门间数据融合的问题,更难凑够数据。
2. 陈旧技术长时间使用
电厂的生命周期很长,仪控设备的更新很多时候是被动的,比如原来用的芯片停产了。新设备的功能并没有很大提升,使得电厂并没有动力主动升级仪控设备。这会导致大量仪控设备会一直使用20-40年。
在这漫长的时间内,初期主要管理系统/设备设计上的bug,中期主要处理老化和偶发失效问题,后期在停产的威胁下被动选择升级换代。
电场如果建设周期长的话,还会面临特殊的难题。那就是刚投产不久,仪控设备率先面临停产断备件。
在中期进行老化监视、状态评估项目的时候。有时候会遇到设备采用的技术过于陈旧,市面上兼容的工具都不卖了。即便掏钱去“重新”开发监测设备,还要面对懂这块的人都不多的问题。
在可靠性增长与持续改进的过程中,也会发现即便发现了设备的bug,厂家也没有多少动力甚至失去能力去改进一个古老的系统。
3. 运行环境良好
电厂仪控设备运行环境大部分都挺好,这导致可靠性试验的很多方法面临尴尬。可靠性试验多采用加速老化的方法进行试验。但如果试验环境跟实际环境差太远,加速系数的误差就会很大。即便误差不大,算出来一个20-30年的寿命。却又面临对于偶发失效到底是老化还是偶发失效的质疑。
电厂对SPV设备的管理需求是SPV设备首个到寿前换掉,但加速老化试验能算出个比较靠谱的平均值就不错了。再指望给出一个考虑的置信区间就更难了,因为通常没有足够的预算去做很大量的加速老化试验。
这会导致试验数据不被接受,最后还是依赖于拍脑门。
4.怎么办
以个人的经验,提升仪控设备可靠性最好的方法还是在设计阶段就介入。在成本允许的情况下尽量增加冗余、合理设计容错机制。这在总线技术大量普及的今天,实际成本增幅不会太高。如果能做到导致跳机跳堆的单一故障设备数量接近0,那么后面的可靠性管理会好做很多、简单很多。
对于已经商运的机组,想办法提升测试验证水平,减少软硬件的bug为首。以分级原则确定已有设备的定期试验和定期更换策略为次。各类预测性维修方案为辅。