DW-心电信号分类预测

心电信号分类预测

最新推荐文章于 2023-04-10 14:20:36 发布

原创

最新推荐文章于 2023-04-10 14:20:36 发布 · 1.2k 阅读

18 ·

CC 4.0 BY-SA版权

DW-心电信号分类预测

1.数据集介绍
2.数据加载
3.模型训练
4.建模调参
5.模型融合
6.总结

1.数据集介绍

赛题以心电图数据为背景，根据心电图感应数据预测心跳信号，其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例，这是一个多分类的问题。但是由于信号数据具有时间顺序，所以是一个时序建模分析问题。只是给定的数据是转化为数值的.csv数值文件
。它的总数据量超过20万，主要为1列心跳信号序列数据，其中每个样本的信号序列采样频次一致，长度相等，从中抽取10万条作为训练集，2万条作为测试集A，2万条作为测试集B，同时会对心跳信号类别（label）信息进行脱敏。

比赛地址：https://tianchi.aliyun.com/competition/entrance/531883/introduction

1.1数据概况

train.csv

id 为心跳信号分配的唯一标识
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)
label 心跳信号类别（0、1、2、3）

testA.csv

id 心跳信号分配的唯一标识
heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)

1.2预测指标

本比赛的评价指标是预测的概率与真实值差值的绝对值。

具体计算公式如下：

总共有n个病例，针对某一个信号，若真实值为[y1,y2,y3,y4],模型预测概率值为[a1,a2,a3,a4],那么该模型的评价指标abs-sum为
${abs-sum={\mathop{ \sum }\limits_{ {j=1}}^{ {n}}{ {\mathop{ \sum }\limits_{ {i=1}}^{ {4}}{ { \left| {y\mathop{ {}}\nolimits_{ {i}}-a\mathop{ {}}\nolimits_{ {i}}} \right| }}}}}}$
例如，某心跳信号类别为1，通过编码转成[0,1,0,0]，预测不同心跳信号概率为[0.1,0.7,0.1,0.1]，那么这个信号预测结果的abs-sum为
$\left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6}$

多分类算法常见的评估指标如下：

其实多分类的评价指标的计算方式与二分类完全一样，只不过我们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。

1、混淆矩阵（Confuse Matrix）

（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，但是被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative ）

第一个字母T/F，表示预测的正确与否；第二个字母P/N，表示预测的结果为正例或者负例。如TP就表示预测对了，预测的结果是正例，那它的意思就是把正例预测为了正例。

2.准确率（Accuracy）
不适合样本不均衡的情况，医疗数据大部分都是样本不均衡数据。
$Accuracy=\frac{Correct}{Total}\\ Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$
3、精确率（Precision）也叫查准率简写为P
精确率(Precision)是针对预测结果而言的，其含义是在被所有预测为正的样本中实际为正样本的概率
精确率代表对正样本结果中的预测准确程度，准确率则代表整体的预测准确程度，包括正样本和负样本。
$\frac{TP}{TP + FP}$
4.召回率（Recall）也叫查全率简写为R
召回率(Recall)是针对原样本而言的，其含义是在实际为正的样本中被预测为正样本的概率。
$\frac{TP}{TP + FN}$

5.宏查准率（macro-P）

计算每个样本的精确率然后求平均值

6.宏查全率（macro-R）

计算每个样本的召回率然后求平均值
7.宏F1（macro-F1）
${macroF1=\frac{ {2 \times macroP \times macroR}}{ {macroP+macroR}}}$
与上面的宏不同，微查准查全，先将多个混淆矩阵的TP,FP,TN,FN对应位置求平均，然后按照P和R的公式求得micro-P和micro-R，最后根据micro-P和micro-R求得micro-F1

8.微查准率（micro-P）
${microP=\frac{ {\overline{TP}}}{ {\overline{TP} \times \overline{FP}}}}$
9.微查全率（micro-R）
${microR=\frac{ {\overline{TP}}}{ {\overline{TP} \times \overline{FN}}}}$
10.微F1（micro-F1）
${microF1=\frac{ {2 \times microP\times microR }}{ {microP+microR}}}$

1.3赛题分析

本题为传统的数据挖掘问题，通过数据科学以及机器学习深度学习的办法来进行建模得到结果。
本题为典型的多分类问题，心跳信号一共有4个不同的类别
主要应用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘常用库或者框架来进行数据挖掘任务。

2.数据加载

2.1数据读取

import os
import gc
import math

import pandas as pd
import numpy as np

import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge
from sklearn.preprocessing import MinMaxScaler


from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import log_loss
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

from tqdm import tqdm
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings('ignore')

train = pd.read_csv('train.csv')
test=pd.read_csv('testA.csv')
train.head()

id	heartbeat_signals	label
0	0.9912297987616655,0.9435330436439665,0.764677…	0.0
1	0.9912297987616655,0.9435330436439665,0.764677…	0.0
2	1.0,0.9591487564065292,0.7013782792997189,0.23…	2.0
3	0.9757952826275774,0.9340884687738161,0.659636…	0.0
4	0.0,0.055816398940721094,0.26129357194994196,0…	2.0

test.head()

id	hearbeat_signals
100000	0.9915713654170097,1.0,0.6318163407681274,0.13…
100001	0.6075533139615096,0.5417083883163654,0.340694…
100002	0.9752726292239277,0.6710965234906665,0.686758…
100003	0.9956348033996116,0.9170249621481004,0.521096…
100004	1.0,0.8879490481178918,0.745564725322326,0.531…

2.2分类指标计算

def abs_sum(y_pre,y_tru):
    #y_pre为预测概率矩阵
    #y_tru为真实类别矩阵
    y_pre=np.array(y_pre)
    y_tru=np.array(y_tru)
    loss=sum(sum(abs(y_pre-y_tru)))
    return loss

2.3EDA和数据预处理

data.describe()——获取数据的相关统计量

data.info()——获取数据类型

data.isnull().sum()——判断数据缺失和异常，查看每列的存在nan情况

"""存疑？"""
def reduce_mem_usage(df):
    start_mem = df.memory_usage().sum() / 1024**2 
    print('Memory usage of dataframe is {:.2f} MB'.format(start_mem))
    
    for col in df.columns:
        col_type = df[col].dtype
        
        if col_type != object:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo