scikit-learn机器学习模块（上）

最新推荐文章于 2025-02-13 16:58:26 发布

原创最新推荐文章于 2025-02-13 16:58:26 发布 · 604 阅读

1 ·

CC 4.0 BY-SA版权

python语言，机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍scikit-learn库的基本使用方法，包括数据格式、常见数据集、线性回归、最近邻算法、线性SVM分类、数据降维PCA、高斯朴素贝叶斯分类、GradientBoostingTree回归等算法的应用，并探讨了结果量化分析的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scikit-learn中的数据

数据格式：2维数组或者矩阵，[n_samples, n_features]

包含数据集：Iris data ，digits data， boston data(housing price)， diabetes data例如：

from sklearn.datasets import load_iris
>>> iris = load_iris() -->其中含有iris.data和iris.target

我们可以通过print(data.DESCR)去查看关于数据集的详细信息

scikit-learn中的机器学习基本原理

线性回归：

from sklearn.linear_model import LinearRegression

模型中的参数是可以初始化的，如：

model = LinearRegression(normalize=True)

当给定训练数据x和y时，模型拟合只需要调用：

model.fit(X, y)

另外，可以通过调用model的coef_值来查看训练得到的系数

最近邻算法：

from sklearn import neighbors

neighbors中包含了KNN算法模型，通过以下调用（参数设置最近邻N的个数）：

knn = neighbors.KNeighborsClassifier(n_neighbors=1)
knn.fit(X, y)

由于KNN算法是不需要训练的，待预测样本直接通过给定的样本找到最近的样本进行相应分类即可：

knn.predict(x)，例如x = [[3, 5, 4, 2]]

线性SVM分类：

from sklearn.svm import LinearSVC

LinearSVC(loss='l1')或l2

从以上两个例子可以看到，我们将不同类型算法的“估算器”赋予给model变量，model在对训练样本学习时，只需要调用model.fit(X, y)；

对于监督式的评估器，预测新数据的方式为：model.predict(X_new)

对于分类问题，有些评估器提供model.predict_proba()方法，返回的是每种类别的概率，概率最大的类别对应了model.predict()

对于非监督式的评估器，可以对特征进行转换，无监督转换指只利用特征的统计信息的转换，统计信息包括均值、标准差、边界等等，比如标准化、PCA法降维等。

例如model.transform()和model.fit_transform(x, y = None)这二者的区别在于

fit_transform需要先拟合数据，这里所说的拟合，不是指含有目标Y的那种拟合，而是根据给定数据找到相应的统计信息，如均值和标准差；

而transform一般用于测试数据，不需要再拟合，而是直接使用训练数据拟合好的统计信息，如均值和标准差，对测试数据进行处理；

其它的模型方法，需要使用时再查阅即可。

数据降维PCA

PCA，主成分分析，可以对数据进行降维，以手写字符为例：

from sklearn.decomposition import PCA
>>> pca = PCA(n_components=2) ##降至2个维度
>>> proj = pca.fit_transform(digits.data) ##
>>> plt.scatter(proj[:, 0], proj[:, 1], c=digits.target)

高斯朴素贝叶斯分类

高斯朴素贝叶斯分类方法是种简单快速的方法，如果简单且快速的方法足以使结果满意，则无需浪费过多CPU资源设计复杂算法-->sklearn.naive_bayes.GaussianNB

高斯朴素贝叶斯对每个相同label的数据进行高斯拟合，然后对测试数据进行大致的分类，尽管对于现实世界的拟合不是很准确，但也很不错，特别对于文本数据

from sklearn.naive_bayes import GaussianNB

from sklearn.model_selection import train_test_split

train_test_split可以自动把数据随机分成训练集和测试集：

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)

该算法调用方法与上一致，具体使用再好好研究其中参数：

clf = GaussianNB()

clf.fit(X_train, y_train)

测试时

predicted = clf.predict(X_test)

结果的量化分析

在模块sklearn.metrics中有许多成熟的度量方法：

from sklearn import metrics
>>> print(metrics.classification_report(expected, predicted))

对于分类的评判，会返回精度precision、召回率recall、f1-score和support

另一种是混淆矩阵，调用方式如下：

metrics.confusion_matrix(expected, predicted)

可以帮助我们看到每一类的误分情况

有时候我们可以将每一维特征和结果的关系画图，手工选择有用的特征

Gradient Boosting Tree Regression

GBT是一种很强大的回归树

from sklearn.ensemble import GradientBoostingRegressor

clf = GradientBoostingRegressor()
clf.fit(X_train, y_train)

predicted = clf.predict(X_test)

另外：

（回归）决策树Decision Tree

from sklearn.tree import DecisionTreeRegressor

待续……