sklearn工具_学习笔记1

最新推荐文章于 2024-05-06 14:33:29 发布

weixin_46087050

最新推荐文章于 2024-05-06 14:33:29 发布

阅读量152

点赞数 1

本文链接：https://blog.youkuaiyun.com/weixin_46087050/article/details/107643481

版权

本文介绍了Sklearn库在监督学习和无监督学习中的应用，包括分类、回归、聚类等算法，以及数据预处理、特征选择等模块。同时概述了Sklearn的统一API接口，如Estimator的fit、predict和transform方法，并提到了常用的数据集加载方式，如鸢尾花、波士顿房价等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Sklearn包：
监督学习：sklearn.
Neighbors：近邻
Svm：支持向量机
Kernel-ridge：核岭回归
Discriminant_analysis：判别分析
linear_model：广义线性模型
ensemble：集成方法
tree ：决策树
naïve_bayes：朴素贝叶斯
cross_decomposition：交叉分解
gaussian_process：高斯过程
neural_network：多层神经网络
calibration：概率校准
isotomic：保序回归
feature_selection：监督特征选择
multiclass：多类多标签算法

无监督学习：sklearn.
decomposition：矩阵因子分解
cluster：聚类分析
manifold：流形学习
mixture：高斯混合模型
neural_network：无监督多层神经网络
density：密度估计
covariance：协方差估计

数据变换模块：sklearn.
feature_extraction：特征提取
feature_selection：特征选择
preprocessing：数据预处理（标准化、归一化）
random_projection：随机投影
kenel_approximation：核逼近
pipline：管道流

顶层继承类：sklearn.base.
baseEstimator：所有评估器的父类
ClassifierMixin：所有分类器的父类，其子类必须实现一个score函数
RegressorMixin：所有回归器的父类，其子类必须实现一个score函数
ClusterMixin：所有聚类的父类，其子类必须实现一个fit_predict函数
BiclusterMixin：
TransformerMixin：所有数据变换的父类，其子类必须实现一个fit_transform函数
DensityMixin：所有密度估计相关的父类，其子类必须实现一个score函数
MetaEstimatorMixin：
Sklearn 六大板块统一API接口：
六大板块：
分类（classification）\回归（regression）\聚类（clustering）
维数约简（dimensionality）\特征抽取选择（feature extraction\selection）
\数据预处理（preprocessing）
统一API：
1、数据加载和预处理
2、训练集训练：Estimator.fit(x_train,y_train)
3、用训练好的模型在测试集预测：
Estimator.predict(x_test)：classification、regression、clustering
Estimator.transform(x_test)：preprocessing、dimensionality、feature extraction\selection
5、对模型进行性能评估：Estimator.score(x_test,y_test)：classification、regression

Sklearn 数据集API：
1、自带小数据集：sklearn.datasets.load_(name)
Load_iris()：鸢尾花数据集-分类
Load_digits()：手写体数字数据集-分类
Load_diabetes()：糖尿病-回归
Load_boston()：波士顿房价-回归
Load_linnerud()：体能训练-多变量回归
Load_sample_image(name)
2、Svmlight/libsvm格式的数据集：sklearn.datasets.load_svmlight_file()
X_train,y_train,x_test,y_test=load_svmlight_files(“/path/to/train_dataset.txt”,” /path/to/test_dataset.txt”)
该数据格式为<feature_id>:<feature_value><feature_id>:<feature_value>，这种数据比较适合存放稀疏数据，在sklearn中，用scipy,sparse,CSR矩阵存放X，用numpy数组来存放Y。
3、可在线下载数据集：sklearn.datasets.fetch_(name)
20类新闻文本数据集：fetch_20newsgroups()/fetch_20newsgroups_vectrized()
野外带标记人脸数据集：fetch_lfw_people()(用于人脸识别)/ fetch_lfw_pairs()(用于人脸验证)
Olivertti人脸数据集：fetch_olivertti_faces()
加利福尼亚房价数据集：fetch_canlifornia_housing()
Rcv1多标签数据集：fetch_rcv1()