各种处理
机器学习中拿到手的数据应该经过人为的处理
预处理
我们学习机器学习最先应该做的是获取数据,机器学习的数据我们一般从UCI这个网站获取。
对于使用pandas读取的数据集,我们想要快速获取数据集的简单描述,是关于每一行,每个属性的缺失值。通常我们使用info()函数。
X.info()#X是目标数据集
对于分类过的数据集,我们也可以读取类别一栏然后通过函数value_counts()来查看有多少个属性每个属性有多少样本。
X[class].value_counts()
当我们想获得每个属性的最大值,方差分位数等等,我们一般使用describe()方法来显示。
X.describe()
文本类型转换数据:OrdinalEncoder()将文本数据转换为数字类别
from sklearn.preprocessing import OrdinalEncoder
ordinal_encoder=OrdinalEncoder()
X_ordinal_encoder=ordinal_encoder.fit_transform(X["class"])
还有一种方法就是 LabelEncoder()
from sklearn.preprocessing imp