本文参考:http://scikit-learn.org/stable/data_transforms.html
本篇主要讲数据预处理,包括四部分:
数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自定义特征。哇哈哈,还是关注预处理比较靠谱。。。。
重要的不翻译:scikit-learn providesa library of transformers, which mayclean (see Preprocessing data), reduce (seeUnsupervised dimensionality reduction), expand (see Kernel Approximation) or generate (see Feature extraction) feature representations.
fit、transform、fit_transform三者区别:
fit:从训练集中学习模型的参数(例如,方差、中位数等;也可能是不同的词汇表)
transform:将训练集/测试集中的数据转换为fit学到的参数的维度上(测试集的方差、中位数等;测试集在fit得到的词汇表下的向量值等)。
fit_transform:同时进行fit和transform操作。
Like other estimators, these are represented by classes with fit