KDD Cup 2021 时序异常检测总结!

KDDCup2021的时序异常检测比赛汇集了250个数据集,旨在推动该领域的基准模型发展。比赛分为两个阶段,分别涉及25和200个时序文件,每个序列仅有一个异常。参赛者需检测并提交异常区间,评价标准基于异常区域的精确度。比赛提供了实时排行榜,并在2021年4月16日公布最终结果,获奖团队包括DBAI、OldCaptain等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

↑↑↑关注后"星标"Datawhale

每日干货 & 每月组队学习,不错过

 Datawhale干货 

方向:时序异常检测,来源:Coggle

赛题描述

KDD Cup 2021 多数据集时间序列异常检测竞赛汇总了250个时序数据集,通过本地比赛希望为时序异常检测提供新的基准模型。

The files use a naming convention that provides a split between test and train.

<id>_<name>_<split-number>.txt
e.g. 004_UCR_Anomaly_2500.txt. 
Here  split-number=2500 indicates there will be an anomaly from 2500 onwards.

给定的文件名称由三项组成,其中split-number表示在2500之后会有一次异常。

  • Phase I :25 time series files will be provided in the data section along with a sample submission file.

阶段1有25个时序数据,需要检测并提交。

  • Phase II:200 time series files including the 1st 25 files from phase I will be provided for the 2nd phase of the competition.

阶段2有200个时序数据,需要检测并提交。

评价指标

https://compete.hexagon-ml.com/practice/competition/39/#evaluation

  • 最终成绩以阶段2为准,比赛有实时排行榜可供参考。

  • 最终榜单将会在比赛结束后(April 16th 2021)公布。

  • 每个时序数据只有一个异常。

  • 评测中正确的异常区间将左右扩大100,提交答案如果位于该区间则得分。

第一名:DBAI

0322892fabaaae025488a1b4fdf451cd.png

a4bdc847495cc6167e58cfedafb5f9ee.png

5b7551e42cb19e714b2357054e97babe.png

d737843ba67d205ddcd15905ed49fb1c.png

b94da1e76b3ccc44c49b1c0197e2baab.png

2ddbafd72dcada5e6f83242aa1262536.png

6bb471501c58740fcc661ef92ff45d5d.png

080d260bb2e35718d3de71a37972a938.png

0d0a65f258ea4456a6eb1788840837a3.png

54e39b453ea5a72d1cde7afc307245b3.png

8a8c50b1b2817842e444279edc026c5b.png

4acdf57e180d68797fd981acaa32ec9d.png

2c6b5c454a5b7e8e22fa51cebed0548e.png

fe6ffca96474b8a6eb0ae2f5acaf8928.png

37055901e1dbb198ed82efebebc3162b.png

e0ed8acefb351c5a54f4efb7f08d8c3a.png

第二名:Old Captain

c9a791e281a9e8d6a431f1219481c706.png

b06d3b79ef0cbe0e79f2ff77f937d0e2.png

b2a00334f5fc4fe09c0d2ae5919553bd.png

c0fa8790883b90edaa02204c9db50b23.png

f5acc1d52119f2c392ecac364f97df3f.png

第三名:JJ

c3573dead6965f2e56e202f58ab0db18.png

a60f6db258b3e32785398ca2a8babf1d.png

48b7fc1148c677a5cd02d87ea2d0ca09.png

93634221974f18eb03052460c1723470.png

2c03e4f715aa32acb7fe26d54a3a4f24.png

第四名:MDTS

43ab17cfb2a24727a2df5fc4c8b9a0c1.png

968fe489fb9bf0d4507e36b1a28d314e.png

4246b2e0e63c8bfa0396c75cbf1e6cbc.png

23650ed641eb6bfce562a7efd75d5b90.png

d647008c339758f5875c7180184f85c3.png

f19f04dce29b55a54145b98dfc82119f.png

55f58aba8dbc2fedad124fa4bb43a171.png

75be59410d3b0f89aac19c260c7e2282.png

d2232d122795f5644e3cec0116aed8b8.png

eddf0d8776c6db763550212f6af29a74.png

第五名:gen

1a57b0a66c14d47b3ff31483cb9d13ba.png

7e1ed1f395207e58e8204f8c08d65bdc.png

108255fe7f9e0560c74e21ae174eb2dc.png

c800e75afe18573dff1ece88e0e75a6c.png

78d0d4d4980dd1d7512390a64e540918.png

005eeec60b16c7a6792f25932b53a15e.png

4c89f12d6da56ff3cef4cc4e285cc3b4.png

第六名:insight

d4dd3cf336c90de0ea75cdefacb6d3bc.png

b227d576fdd7ae88c79075233bcde8fe.png

988c2c04f69e4c416400140e7029fb5c.png

5cc1bdb1d97e8ada3a6935be09f4a462.png

019581e3df2c4a7764802f239dc422b6.png

584ae65e720e8dba7fdea8a770a5a9c1.png

325518249bebbe86faf8c0fe30dd4014.png

87032f4fb65e52b4da18954c6fa5147e.png

0463d73a5f53aec883473dedade63353.png

c845a8638b397c6c2255e25ad50daf14.png

f86206787aad9274703b979dcab3f081.png

第七名:HU WBI

f21fcc1559c42d5c8c78f58155a1a955.png

7a82272e8d800c4867388c55b2a6c0da.png

7b7d9fc1c9fcc14e4df4d4b0bb9f741b.png

1f5475c08abb77536e634a68bf8ef83a.png

bed950cb8ddb96533c4c4d425b50f71e.png

5d22d229409ecc82da9b0a80b007a880.png

f005ee8e2f353fe4bf5067dce9adc16e.png

d34066a092445358d5fe3eab23209ec7.png

整理不易,三连

### 无监督异常检测数据集 对于无监督异常检测的研究和开发而言,找到合适的数据集至关重要。这些数据集不仅能够帮助验证算法的有效性,还能促进技术的发展。以下是几个常用的无监督异常检测数据集: #### MVTec AD 数据集[^2] MVTec AD 是一个专注于工业产品的高质量图像数据集,旨在支持表面缺陷检测研究。此数据集涵盖了多种类型的物体和材料上的各种缺陷模式,如金属螺钉、木板纹理等。它特别适合于评估针对特定领域内的异常情况识别性能。 #### CIFAR-10 和 MNIST 的 OOD 版本 CIFAR-10 和 MNIST 均是非常流行的小型图片分类数据库;但是,在无监督设定下,可以通过移除某些类别或将它们视为异常来创建 out-of-distribution (OOD) 检测任务版本。这种方式允许研究人员探索如何仅依靠正常样本进行训练并有效地区分未知类别或异常实例。 #### Surface Defect Saliency Dataset 这个数据集中包含了大量有关表面瑕疵的信息,可用于测试模型在发现细微结构变化方面的能力。其特点是拥有丰富的标注信息,有助于深入理解不同类型缺陷之间的差异以及模型表现的影响因素。 #### 多元时间序列数据集 除了静态图像外,还有许多适用于时序数据分析的时间序列数据集可供选择。例如 KDD Cup '99 Network Intrusion Detection Data Set 或 NASA 航天飞机阀门记录等都可以作为很好的资源来检验基于时间维度的异常探测方法的效果[^5]。 ```python import pandas as pd from sklearn.datasets import fetch_openml # 加载MNIST数据集为例展示加载过程 mnist = fetch_openml('mnist_784', version=1) print(f"Dataset shape: {mnist.data.shape}") ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值