Python - SkLearn库的使用
SkLearn简介
即scikit-learn库,是当今最流行的机器学习算法库之一,可以用来解决分类和回归问题。
数据的预处理
from sklearn import preprocessing
标签编码
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
X['a'] = encoder.fit_transform(X['a']) # 学习并转换
# eg. 若X为鸢尾花数据集,a代表种类,那么a属性会自动置换为0,1,2,,,,
数据集的处理
- 标准化
公式为:(X-mean)/std 计算时对每个属性/每列分别进行。
将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。
from sklearn.preprocessing import Scale
X_scaled = scale(X)
StandardScaler类,使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。
from sklearn