数据挖掘天池竞赛——心电图心跳信号多分类预测Task1赛题理解_心跳信号多分类采用什么结构-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45666566/article/details/114867657

心电图心跳信号多分类预测1

1、赛题理解
2、多分类评价指标

1、赛题理解

$\quad \quad$ 2016年6月，国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化，有利于提升健康医疗服务效率和质量。

$\quad \quad$ 赛题以心电图数据为背景，要求选手根据心电图感应数据预测心跳信号，其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例，这是一个多分类的问题。

1.1 赛题概括

$\quad \quad$ 比赛要求参赛选手根据给定的数据集，建立模型，预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务，数据集报名后可见并可下载，该该数据来自某平台心电图数据记录，总数据量超过20万，主要为1列心跳信号序列数据，其中每个样本的信号序列采样频次一致，长度相等。为了保证比赛的公平性，将会从中抽取10万条作为训练集，2万条作为测试集A，2万条作为测试集B，同时会对心跳信号类别（label）信息进行脱敏。

1.2 数据概括

$\quad \quad$ 一般而言，对于数据在比赛界面都有对应的数据概况介绍（匿名特征除外），说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。

在这里插入图片描述

train.csv

id 为心跳信号分配的唯一标识
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)
label 心跳信号类别（0、1、2、3）

testA.csv

id 心跳信号分配的唯一标识
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)

1.3 预测指标

$\quad \quad$ 选手需提交4种不同心跳信号预测的概率，选手提交结果与实际心跳类型结果进行对比，求预测的概率与真实值差值的绝对值（越小越好）。

具体计算公式如下：

针对某一个信号，若真实值为 $y_1,y_2,y_3,y_4]$ 模型预测概率值为 $a_1,a_2,a_3,a_4]$ ,那么该模型的平均指标 $a b s - s u m$ 为
${abs-sum={\mathop{ \sum }\limits_{ {j=1}}^{ {n}}{ {\mathop{ \sum }\limits_{ {i=1}}^{ {4}}{ { \left| {y\mathop{ {}}\nolimits_{ {i}}-a\mathop{ {}}\nolimits_{ {i}}} \right| }}}}}}$
例如，心跳信号为1，会通过编码转成 $[0, 1, 0, 0]$ ，预测不同心跳信号概率为 $[0.1, 0.7, 0.1, 0.1]$ ，那么这个预测结果的 $a b s - s u m$ 为
$\left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6}$