sklearn工具_学习笔记1

本文介绍了Sklearn库在监督学习和无监督学习中的应用,包括分类、回归、聚类等算法,以及数据预处理、特征选择等模块。同时概述了Sklearn的统一API接口,如Estimator的fit、predict和transform方法,并提到了常用的数据集加载方式,如鸢尾花、波士顿房价等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Sklearn包:
监督学习:sklearn.
Neighbors:近邻
Svm:支持向量机
Kernel-ridge:核岭回归
Discriminant_analysis:判别分析
linear_model:广义线性模型
ensemble:集成方法
tree :决策树
naïve_bayes:朴素贝叶斯
cross_decomposition:交叉分解
gaussian_process:高斯过程
neural_network:多层神经网络
calibration:概率校准
isotomic:保序回归
feature_selection:监督特征选择
multiclass:多类多标签算法

无监督学习:sklearn.
decomposition:矩阵因子分解
cluster:聚类分析
manifold:流形学习
mixture:高斯混合模型
neural_network:无监督多层神经网络
density:密度估计
covariance:协方差估计

数据变换模块:sklearn.
feature_extraction:特征提取
feature_selection:特征选择
preprocessing:数据预处理(标准化、归一化)
random_projection:随机投影
kenel_approximation:核逼近
pipline:管道流

顶层继承类:sklearn.base.
baseEstimator:所有评估器的父类
ClassifierMixin:所有分类器的父类,其子类必须实现一个score函数
RegressorMixin:所有回归器的父类,其子类必须实现一个score函数
ClusterMixin:所有聚类的父类,其子类必须实现一个fit_predict函数
BiclusterMixin:
TransformerMixin:所有数据变换的父类,其子类必须实现一个fit_transform函数
DensityMixin:所有密度估计相关的父类,其子类必须实现一个score函数
MetaEstimatorMixin:
Sklearn 六大板块统一API接口:
六大板块:
分类(classification)\回归(regression)\聚类(clustering)
维数约简(dimensionality)\特征抽取选择(feature extraction\selection)
\数据预处理(preprocessing)
统一API:
1、 数据加载和预处理
2、训练集训练:Estimator.fit(x_train,y_train)
3、用训练好的模型在测试集预测:
Estimator.predict(x_test):classification、regression、clustering
Estimator.transform(x_test):preprocessing、dimensionality、feature extraction\selection
5、 对模型进行性能评估:Estimator.score(x_test,y_test):classification、regression

Sklearn 数据集API:
1、自带小数据集:sklearn.datasets.load_(name)
Load_iris():鸢尾花数据集-分类
Load_digits():手写体数字数据集-分类
Load_diabetes():糖尿病-回归
Load_boston():波士顿房价-回归
Load_linnerud():体能训练-多变量回归
Load_sample_image(name)
2、Svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file()
X_train,y_train,x_test,y_test=load_svmlight_files(“/path/to/train_dataset.txt”,” /path/to/test_dataset.txt”)
该数据格式为<feature_id>:<feature_value><feature_id>:<feature_value>,这种数据比较适合存放稀疏数据,在sklearn中,用scipy,sparse,CSR矩阵存放X,用numpy数组来存放Y。
3、可在线下载数据集:sklearn.datasets.fetch_(name)
20类新闻文本数据集:fetch_20newsgroups()/fetch_20newsgroups_vectrized()
野外带标记人脸数据集:fetch_lfw_people()(用于人脸识别)/ fetch_lfw_pairs()(用于人脸验证)
Olivertti人脸数据集:fetch_olivertti_faces()
加利福尼亚房价数据集:fetch_canlifornia_housing()
Rcv1多标签数据集:fetch_rcv1()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值