Task3 特征工程
在这一篇中以天池比赛的HeartbeatClassification提供的数据作为对象,提取数据特征,这在数据挖掘中是非常关键的步骤,通过此步骤可以得到大量优秀的特征,方便接下来使用机器学习方法或其他方法建模。
由于本次比赛的数据是时间序列数据,所以主要介绍提取时间序列特征的tsfresh包里的方法。这在比赛中是经常见到的工具。
import pandas as pd
import numpy as np
import tsfresh as tsf#提取时间序列数据
from tsfresh import extract_features,select_features
from tsfresh.utilities.dataframe_functions import impute
载入数据
data_train=pd.read_csv('Train.csv')
data_test_A=pd.read_csv('TestA.csv')
print(data_train.shape)
print(data_test_A.shape)
data_test_A