sklearn（Scikit-learn）开源机器学习库介绍

原创已于 2025-07-13 19:41:24 修改 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #sklearn #scikit-learn #人工智能 #Python

于 2025-07-13 15:30:00 首次发布

老猿Python 同时被 3 个专栏收录

1156 篇文章

订阅专栏

零基础机器学习入门

22 篇文章

订阅专栏

sklearn（Scikit-learn）开源机器学习库

6 篇文章

订阅专栏

☞ ░ 前往老猿Python博客 ░ https://blog.youkuaiyun.com/LaoYuanPython

在这里插入图片描述

一、简介

Scikit-learn（简称 sklearn）是 Python 中最受欢迎的开源机器学习库，专为监督学习和无监督学习任务设计。Scikit-learn 建立在 NumPy、SciPy 和 Matplotlib 之上，为数据挖掘和数据分析提供了简单高效的工具。

Scikit-learn 的优势在于 API 设计一致、文档丰富、社区支持强大，是机器学习入门和快速原型开发的重要工具。

sklearn提供了包括数据预处理、模型训练、模型评估、实用工具等相关能力，并内置机器学习常见的数据集。

Scikit-learn 的设计遵循一致性原则，所有估计器(estimator)都实现了fit方法进行训练，predict或transform方法进行预测或转换，使得API易于学习和使用。

Scikit-learn 不支持复杂的机器学习任务（如深度学习），是因为其局限性导致的，但可以结合其他库扩展功能来使用。

sklearn的安装非常简单：

pip install scikit-learn

二、主要能力

本部分简单介绍一下sklearn的主要能力，后续文章再将相关能力详细展开介绍。

2.1、数据预处理（Preprocessing）

sklearn提供对特征数据集进行数据预处理的相关能力，包括：

特征缩放能力：包括标准化（StandardScaler）、归一化（MinMaxScaler）、鲁棒缩放（RobustScaler）
编码分类变量：独热编码（OneHotEncoder）、标签编码（LabelEncoder）
缺失值处理：简单填充（SimpleImputer）
特征生成：多项式特征（PolynomialFeatures）、分箱（KBinsDiscretizer）
文本向量化：TF-IDF（TfidfVectorizer）、词袋模型（CountVectorizer）

2.2、监督学习（Supervised Learning）

sklearn支持大部分监督学习的分类和回归算法，包括：

分类算法：识别对象所属类别，包括逻辑回归（LogisticRegression）、支持向量机（SVC）、决策树（DecisionTreeClassifier）、随机森林（RandomForestClassifier）、梯度提升树（GradientBoostingClassifier）、K近邻（KNeighborsClassifier）、朴素贝叶斯（NaiveBayes）等
回归算法：预测连续值，包括线性回归、包括线性回归（LinearRegression）、岭回归（Ridge）、Lasso回归（Lasso）、支持向量回归（SVR）、随机森林回归（RandomForestRegressor）

2.3、无监督学习（Unsupervised Learning）

sklearn支持聚类、降维、异常检测的无监督学习算法，包括：

聚类算法（Clustering）：包括K均值（KMeans）、层次聚类（AgglomerativeClustering）、DBSCAN（DBSCAN）、高斯混合模型（GaussianMixture）
降维（Dimensionality Reduction）：减少变量数量，包括PCA、t-SNE（TSNE）、LDA（LatentDirichletAllocation，用于文本）等

2.4、异常检测

包括隔离森林（IsolationForest）、One-Class SVM（OneClassSVM）等。

2.5、模型选择与评估（Model Selection & Evaluation）

交叉验证：KFold、StratifiedKFold、cross_val_score
超参数调优：网格搜索（GridSearchCV）、随机搜索（RandomizedSearchCV）
评估指标：包括分类算法的准确率、召回率、F1、ROC-AUC（metrics.accuracy_score等）、回归算法的MSE、R²（metrics.mean_squared_error等）。
学习曲线/验证曲线：learning_curve、validation_curve。

2.6、集成方法（Ensemble Methods）

Bagging：BaggingClassifier
Boosting：AdaBoost、GradientBoosting
Stacking：StackingClassifier（需结合其他库如 mlxtend）

2.7、流水线（Pipeline）

将预处理、特征选择、模型训练封装为统一流程（Pipeline + ColumnTransformer）

2.8、其他实用工具

特征选择：基于统计（SelectKBest）、基于模型（SelectFromModel）
数据集：内置经典数据集（如鸢尾花、手写数字等），将在后续内容内介绍
可视化：部分模型支持决策树可视化（需配合 matplotlib 或 graphviz）

三、局限性

Scikit-learn（sklearn）虽然功能强大且易于使用，但在某些场景下存在明显的局限性。

不支持深度学习：sklearn 仅覆盖传统机器学习算法（如 SVM、随机森林、线性模型等），无法直接实现神经网络（如 CNN、RNN、Transformer）
不适合超大规模数据：sklearn基于 NumPy/Pandas，数据需全部加载到内存，无法处理分布式大数据（如 TB 级）
对非结构化数据处理能力弱：缺乏卷积、池化等操作（需依赖 OpenCV 或 PIL 预处理），图像/语音处理能力有限

四、小结

Scikit-learn是 Python 中最受欢迎的开源机器学习库，专为监督学习和无监督学习任务设计。sklearn提供了包括数据预处理、模型训练、模型评估、实用工具等相关能力，并内置机器学习常见的数据集。但因为其局限性scikit-learn 不支持复杂的机器学习任务（如深度学习）、不支持深度学习、不适合超大规模数据，对非结构化数据处理能力弱。本文就sklearn（Scikit-learn）开源机器学习库的功能、主要能力等相关内容简单做了个介绍，后续文章将展开详细介绍相关能力。

更多人工智能知识学习过程中可能遇到的疑难问题及解决办法请关注专栏《零基础机器学习入门》及付费专栏《机器学习疑难问题集》后续的文章。