数据挖掘————HeartbeatClassification

本文介绍了在天池比赛HeartbeatClassification中如何使用tsfresh库处理时间序列数据,包括数据预处理,如行转列和添加时间步特征,以及特征提取和选择。通过tsfresh提取了779个特征,并进一步筛选出700个与目标变量相关性高的特征,为后续的建模工作奠定了基础。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Task3 特征工程
在这一篇中以天池比赛的HeartbeatClassification提供的数据作为对象,提取数据特征,这在数据挖掘中是非常关键的步骤,通过此步骤可以得到大量优秀的特征,方便接下来使用机器学习方法或其他方法建模。
由于本次比赛的数据是时间序列数据,所以主要介绍提取时间序列特征的tsfresh包里的方法。这在比赛中是经常见到的工具。

import pandas as pd
import numpy as np
import tsfresh as tsf#提取时间序列数据
from tsfresh import extract_features,select_features
from tsfresh.utilities.dataframe_functions import impute

载入数据

data_train=pd.read_csv('Train.csv')
data_test_A=pd.read_csv('TestA.csv')
print(data_train.shape)
print(data_test_A.shape)
data_test_A
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值