sklearn方法大全

API参考


这是scikit-learn的类和函数参考。有关更多详细信息,请参阅完整的用户指南,因为类和函数的原始规范可能不足以提供有关其用法的完整指南。有关在API上重复的概念的参考,请参阅“通用术语表和API元素”。

sklearn.base:基类和实用程序函数

所有估计量的基类。

基类

base.BaseEstimator	scikit-learn中所有估计量的基类
base.BiclusterMixin	scikit-learn中所有双簇估计器的Mixin类
base.ClassifierMixin	scikit-learn中所有分类器的Mixin类。
base.ClusterMixin	scikit-learn中所有聚类估计量的Mixin类。
base.DensityMixin	scikit-learn中所有密度估计量的Mixin类。
base.RegressorMixin	scikit-learn中所有回归估计量的Mixin类。
base.TransformerMixin	scikit-learn中所有变压器的Mixin类。

功能

base.clone(估算器[,安全])	构造一个具有相同参数的新估算器。
base.is_classifier(估算器)	如果给定的估算器可能是分类器,则返回True。
base.is_regressor(估算器)	如果给定的估计量(可能是回归量),则返回True。
config_context(\ * \ * new_config)	全局scikit学习配置的上下文管理器
get_config()	检索配置的当前值 set_config
set_config([假定上限,工作中的内存,...])	设置全局scikit-learn配置
show_versions()	打印有用的调试信息

sklearn.calibration:概率校准

校准预测概率。

calibration.CalibratedClassifierCV([])	等渗回归或S形概率校准。
calibration.calibration_curve(y_true,y_prob)	计算校正曲线的真实和预测概率。

sklearn.cluster:聚类

该sklearn.cluster模块收集了流行的无监督聚类算法。

cluster.AffinityPropagation([阻尼,...])	执行数据的相似性传播聚类。
cluster.AgglomerativeClustering([])	聚集聚类
cluster.Birch([阈值,branching_factor,...])	实现Birch聚类算法。
cluster.DBSCAN([eps,min_samples,指标,...])	从向量数组或距离矩阵执行DBSCAN聚类。
cluster.OPTICS([min_samples,max_eps,…])	从向量数组估计聚类结构
cluster.FeatureAgglomeration([n_clusters,...])	聚集功能。
cluster.KMeans([n_clusters,init,n_init,...])	K均值聚类
cluster.MiniBatchKMeans([n_clusters,init,...])	迷你批次K均值聚类
cluster.MeanShift([带宽,种子,...])	使用平内核的均值漂移聚类。
cluster.SpectralClustering([n_clusters,...])	将聚类应用于规范化拉普拉斯算子的投影。

功能

cluster.affinity_propagation(S [,…])	执行数据的相似性传播聚类
cluster.cluster_optics_dbscan(可达性,…)	对任意epsilon执行DBSCAN提取。
cluster.cluster_optics_xi(可达性,…)	根据Xi-steep方法自动提取群集。
cluster.compute_optics_graph(X,min_samples等)	计算OPTICS可达性图。
cluster.dbscan(X [,eps,min_samples,…])	从向量数组或距离矩阵执行DBSCAN聚类。
cluster.estimate_bandwidth(X [,分位数,...])	估计均值漂移算法要使用的带宽。
cluster.k_means(X,n_clusters [,…])	K-均值聚类算法。
cluster.mean_shift(X [,带宽,种子,…])	使用扁平内核执行数据的均值漂移聚类。
cluster.spectral_clustering(亲和力[,…])	将聚类应用于规范化拉普拉斯算子的投影。
cluster.ward_tree(X [,连通性,…])	基于特征矩阵的病房聚类。

sklearn.cluster.bicluster:集群化

频谱双簇算法。

SpectralBiclustering([n_clusters,方法,...])	频谱双聚类(Kluger,2003)。
SpectralCoclustering([n_clusters,...])	频谱共聚算法(Dhillon,2001)。

sklearn.compose:复合估计器

用于使用变压器构建复合模型的元估计器

compose.ColumnTransformer(变形金刚[,…])	将转换器应用于数组或熊猫DataFrame的列。
compose.TransformedTargetRegressor([])	元估算器可对转换后的目标进行回归。
compose.make_column_transformer(...)	从给定的转换器构造一个ColumnTransformer。

sklearn.covariance:协方差估计器

该sklearn.covariance模块包括在给定点集的情况下稳健地估计特征协方差的方法和算法。还估计了定义为协方差的倒数的精度矩阵。协方差估计与高斯图形模型理论密切相关。

covariance.EmpiricalCovariance([])	最大似然协方差估计量
covariance.EllipticEnvelope([])	用于检测高斯分布数据集中的异常值的对象。
covariance.GraphicalLasso([alpha,模式,...])	带有l1惩罚估计量的稀疏逆协方差估计。
covariance.GraphicalLassoCV([alphas,...])	带有l1罚分的交叉验证选择的稀疏逆协方差。
covariance.LedoitWolf([store_precision,...])	LedoitWolf估算器
covariance.MinCovDet([store_precision,...])	最小协方差决定因素(MCD):协方差的鲁棒估计器。
covariance.OAS([store_precision,...])	Oracle近似收缩率估算器
covariance.ShrunkCovariance([])	收缩率的协方差估计器
covariance.empirical_covariance(X[, …])	计算最大似然协方差估计量
covariance.graphical_lasso(emp_cov,alpha [,…])	l1惩罚协方差估计器
covariance.ledoit_wolf(X [,假定为中心,…])	估计缩小的Ledoit-Wolf协方差矩阵。
covariance.oas(X [,假定为居中])	使用Oracle近似收缩算法估算协方差。
covariance.shrunk_covariance(emp_cov [,…])	计算对角线上收缩的协方差矩阵

sklearn.cross_decomposition:交叉分解

用户指南:有关更多详细信息,请参见“ 交叉分解”部分。

cross_decomposition.CCA([n_components,...])	CCA典型相关分析。
cross_decomposition.PLSCanonical([])	PLSCanonical实现了原始Wold算法[Tenenhaus 1998] p.2042个块规范PLS,在[Wegelin 2000]中称为PLS-C2A。
cross_decomposition.PLSRegression([])	PLS回归
cross_decomposition.PLSSVD([n_components,...])	偏最小二乘SVD

sklearn.datasets:数据集

该sklearn.datasets模块包括用于加载数据集的实用程序,包括用于加载和获取流行的参考数据集的方法。它还具有一些人工数据生成器。

用户指南:有关更多详细信息,请参见“ 数据集加载实用程序”部分。

数据集

datasets.clear_data_home([data_home])	删除数据主目录缓存的所有内容。
datasets.dump_svmlight_file(X,y,f [,…])	以svmlight / libsvm文件格式转储数据集。
datasets.fetch_20newsgroups([data_home,...])	从20个新闻组数据集中加载文件名和数据(分类)。
datasets.fetch_20newsgroups_vectorized([])	加载20个新闻组数据集并将其向量化为令牌计数(分类)。
datasets.fetch_california_housing([])	加载加利福尼亚住房数据集(回归)。
datasets.fetch_covtype([data_home,...])	加载covertype数据集(分类)。
datasets.fetch_kddcup99([子集,data_home,...])	加载kddcup99数据集(分类)。
datasets.fetch_lfw_pairs([子集,...])	在“野生(LFW)”对数据集中加载标签的面部(分类)。
datasets.fetch_lfw_people([data_home,...])	将标签的面孔加载到Wild(LFW)人数据集中(分类)。
datasets.fetch_olivetti_faces([data_home,...])	从AT&T(分类)中加载Olivetti人脸数据集。
datasets.fetch_openml([名称,版本,...])	通过名称或数据集ID从openml获取数据集。
datasets.fetch_rcv1([data_home,子集,...])	加载RCV1多标签数据集(分类)。
datasets.fetch_species_distributions([])	Phillips等人的物种分布数据集加载程序。
datasets.get_data_home([data_home])	返回scikit-learn数据目录的路径。
datasets.load_boston([return_X_y])	加载并返回波士顿房价数据集(回归)。
datasets.load_breast_cancer([return_X_y])	加载并返回乳腺癌威斯康星州数据集(分类)。
datasets.load_diabetes([return_X_y])	加载并返回糖尿病数据集(回归)。
datasets.load_digits([n_class,return_X_y])	加载并返回数字数据集(分类)。
datasets.load_files(container_path [,…])	加载带有类别作为子文件夹名称的文本文件。
datasets.load_iris([return_X_y])	加载并返回虹膜数据集(分类)。
datasets.load_linnerud([return_X_y])	加载并返回linnerud数据集(多元回归)。
datasets.load_sample_image(图片名称)	加载单个样本图像的numpy数组
datasets.load_sample_images()	加载样本图像以进行图像处理。
datasets.load_svmlight_file(f [,n_features,…])	将svmlight / libsvm格式的数据集加载到稀疏CSR矩阵中
datasets.load_svmlight_files(文件[,…])	从SVMlight格式的多个文件加载数据集
datasets.load_wine([return_X_y])	加载并返回葡萄酒数据集(分类)。

样本生成器

datasets.make_biclusters(形状,n_clusters)	生成具有恒定块对角线结构的数组以进行双聚类。
datasets.make_blobs([n_samples个,n_features个,...])	生成各向同性的高斯斑点以进行聚类。
datasets.make_checkerboard(形状,n_clusters)	生成具有棋盘格结构的数组以进行二聚类化。
datasets.make_circles([n_samples,随机播放,...])	在2d中制作一个包含较小圆圈的大圆圈。
datasets.make_classification([n_samples,...])	生成随机的n类分类问题。
datasets.make_friedman1([n_samples,...])	生成“ Friedman#1”回归问题
datasets.make_friedman2([n_samples,噪声,...])	生成“ Friedman#2”回归问题
datasets.make_friedman3([n_samples,噪声,...])	生成“ Friedman#3”回归问题
datasets.make_gaussian_quantiles([意思, …])	通过分位数生成各向同性的高斯并标记样本
datasets.make_hastie_10_2([n_samples,...])	生成Hastie等人使用的二进制分类数据。
datasets.make_low_rank_matrix([n_samples,...])	生成具有钟形奇异值的低阶矩阵
datasets.make_moons([n_samples,随机播放,...])	做两个交错的半圈
datasets.make_multilabel_classification([])	生成随机的多标签分类问题。
datasets.make_regression([n_samples,...])	生成随机回归问题。
datasets.make_s_curve([n_samples,噪声,...])	生成S曲线数据集。
datasets.make_sparse_
sklearn库是一个基于Python的第三方模块,它集成了许多常用的机器学习方法,可以帮助我们完成各种机器学习任务。下面是一些常用的sklearn方法的介绍: 1. 数据集加载方法: - `sklearn.datasets.load_*`:加载内置的数据集,如`load_iris()`加载鸢尾花数据集。 - `sklearn.datasets.fetch_*`:从网络上下载并加载数据集,如`fetch_openml()`下载并加载OpenML数据集。 2. 数据预处理方法: - `sklearn.preprocessing.*`:提供了一系列数据预处理的方法,如`StandardScaler()`用于特征标准化,`MinMaxScaler()`用于特征缩放等。 3. 特征选择方法: - `sklearn.feature_selection.*`:提供了一些特征选择的方法,如`SelectKBest()`用于选择K个最好的特征,`RFE()`用于递归特征消除等。 4. 模型选择和评估方法: - `sklearn.model_selection.*`:提供了模型选择和评估的方法,如`train_test_split()`用于划分训练集和测试集,`cross_val_score()`用于交叉验证评估模型性能等。 5. 机器学习算法方法: - `sklearn.*`:sklearn库中包含了许多机器学习算法的实现,如线性回归(`LinearRegression`)、决策树(`DecisionTreeClassifier`)、支持向量机(`SVC`)等。 6. 模型保存和加载方法: - `sklearn.externals.joblib.*`:提供了模型的保存和加载方法,如`dump()`用于保存模型,`load()`用于加载模型。 下面是一个示例代码,演示了如何使用sklearn中的一些方法: ```python from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score # 加载鸢尾花数据集 iris = load_iris() # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) # 创建逻辑回归模型 model = LogisticRegression() # 在训练集上训练模型 model.fit(X_train, y_train) # 在测试集上进行预测 y_pred = model.predict(X_test) # 计算准确率 accuracy = accuracy_score(y_test, y_pred) print("Accuracy:", accuracy) ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值