PAKDD2020 阿里巴巴智能运维算法大赛总结（初赛33，决赛19）

最新推荐文章于 2025-10-11 13:48:38 发布

原创

最新推荐文章于 2025-10-11 13:48:38 发布 · 置顶 · 4.1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #大数据 #算法

本文总结了PAKDD2020阿里巴巴智能运维算法大赛经验，重点介绍了大规模硬盘故障预测的解决方案，包括数据预处理、特征工程、模型选择与调优，以及线上策略和阈值选取技巧。

在这里插入图片描述

赛题地址:PAKDD2020 阿里巴巴智能运维算法大赛-大规模硬盘故障预测
Githun代码地址：初赛+复赛
感谢另外两名队友的帮助，在整理资料和查阅文献方面给予了不少帮助。
另外一名队友的相关文章分析：磁盘故障预测问题比赛思路、难点与问题总结

问题描述

给定一段连续采集(天粒度)的硬盘状态监控数据（Self-Monitoring, Analysis, and Reporting Technology; often written as SMART)以及故障标签数据，参赛者需要自己提出方案，按天粒度判断每块硬盘是否会在未来30日内发生故障。例如，可以将预测故障问题转化为传统的二分类问题，通过分类模型来判断哪些硬盘会坏；或者可以转化为排序问题，通过Learning to rank的方式判断硬盘的损坏严重程度等。

初赛会提供训练数据集，供参赛选手训练模型并验证模型效果使用。同时，也将提供测试集，选手需要对测试集中的硬盘按天粒度进行预测，判断该硬盘是否会在未来30天内发生故障，并将模型判断出的结果上传至竞赛平台，平台会根据提交的预测结果，来评估模型预测的效果。

总的来说就是要在未来30天内，把会发生故障的硬盘找出来，只要提交的Log日期，距离真正坏的日期距离在30天内就算预测成功

数据描述

1)表1: disk_sample_smart_log_*.csv为SMART LOG数据表，共514列。每列的含义如下：

列名	字段类型	描述
serial_number	string	硬盘序列号代号
manufacturer	string	硬盘的厂商代号
model	string	硬盘型号代号
smart_n_normalized	integer	SMART ID=n的归一化SMART数据
smart_nraw	integer	SMART ID=n的SMART原始数据
dt	string	采集日期