sklearn编程模型

最新推荐文章于 2025-10-22 09:45:52 发布

原创最新推荐文章于 2025-10-22 09:45:52 发布 · 996 阅读

2 ·

CC 4.0 BY-SA版权

ml 专栏收录该内容

3 篇文章

订阅专栏

本文介绍sklearn编程模型的使用方法，包括内置数据集的加载、估计器与转换器的应用、Pipeline与FeatureUnion的构建等。通过示例展示了如何进行数据预处理、特征选择及模型训练。

部署运行你感兴趣的模型镜像

sklearn编程模型

数据集

sklearn.datasets自带一些经典数据集，方便用于实验。以iris数据集为例

.data是一个150x4的矩阵，每行是一个样本，每列是一个feature，feature的名字在.feature_names，.target是150x1的数组，对应每个样本的目标：

sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	.target
5.100	3.500	1.400	0.200	0
4.900	3.000	1.400	0.200	0
4.700	3.200	1.300	0.200	0
4.600	3.100	1.500	0.200	0
…	…	…	…	…

通常用法如下，用大写表示矩阵，小写表示数组。数据集可以按需求拆分成训练集和测试集使用。

X, y = iris.data, iris.target
estimater.fit(X, y)

estimator(估计器)

有了数据集之后就是训练与分类/回归的过程，新建一个estimator，先用estimator.fit(X, y)训练，然后用estimator.predict(T)测试，示例如下，如果这个estimator是一个分类器，给他的实例起名叫classifier会比较清晰：

>>> from sklearn import svm
>>> classifier = svm.SVC(gamma=0.001, C=100.)
>>> classifier.fit(iris.data[:-1], iris.target[:-1]) #保留最后一条样本，用于测试
>>> classifier.predict(iris.data[-1:])

transformer(数据集转换)

transformer实现fit transform，还有一个方便的组合fit_transform

transformer涵盖很广，包括数据预处理、数据降维、特征提取等，它的接口和estimator很类似，transformer和estimator常被组织进Pipeline，按步骤操作。

Pipeline

前一个transformer.transform()输出给下一个，这样就串联起来了，最后一个步骤通常是个estimator。预处理、降维、训练，调用一次fit就行了。

    #PCA是个transformer，做降维，SVC是个estimator，训练
>>> estimators = [('reduce_dim', PCA()), ('clf', SVC())]
>>> pipe = Pipeline(estimators)
>>> pipe.fit(X, y)

FeatureUnion

和Pipeline类似，但不是串联，是并联，把多个transformer处理过的数据合起来输出

>>> estimators = [('linear_pca', PCA()), ('kernel_pca', KernelPCA())]
>>> combined = FeatureUnion(estimators)
>>> combined.fit(X, y).transform() #假设PCA提取2个特征，KernelPCA提取3个特征，变换样本数不变，输出5列
#也可以并联之后再串联
>>> pipeline = Pipeline([("features", combined), ("svm", svm)])