API参考
- sklearn.base:基类和实用程序函数
- sklearn.calibration:概率校准
- sklearn.cluster:聚类
- sklearn.cluster.bicluster:集群化
- sklearn.compose:复合估计器
- sklearn.covariance:协方差估计器
- sklearn.cross_decomposition:交叉分解
- sklearn.datasets:数据集
- sklearn.decomposition模块
- sklearn.discriminant_analysis:判别分析
- sklearn.dummy:虚拟估计器
- sklearn.ensemble:集合方法
- sklearn.exceptions:异常和警告
- sklearn.experimental:实验
- sklearn.feature_extraction特征提取
- sklearn.feature_selection:功能选择
- sklearn.gaussian_process:高斯过程
- sklearn.kernel_approximation内核近似
- sklearn.metrics:指标
- sklearn.mixture:高斯混合模型
- sklearn.multiclass:多类和多标签分类
- sklearn.multioutput:多输出回归和分类
- sklearn.naive_bayes:朴素贝叶斯
- sklearn.neighbors:最近的邻居
- sklearn.pipeline:连接器
- sklearn.preprocessing:预处理和规范化
- sklearn.random_projection:随机投影
- sklearn.semi_supervised半监督学习
- sklearn.svm:支持向量机
- sklearn.tree:决策树
- sklearn.utils:实用工具
- 版本变更
这是scikit-learn的类和函数参考。有关更多详细信息,请参阅完整的用户指南,因为类和函数的原始规范可能不足以提供有关其用法的完整指南。有关在API上重复的概念的参考,请参阅“通用术语表和API元素”。
sklearn.base:基类和实用程序函数
所有估计量的基类。
基类
base.BaseEstimator scikit-learn中所有估计量的基类
base.BiclusterMixin scikit-learn中所有双簇估计器的Mixin类
base.ClassifierMixin scikit-learn中所有分类器的Mixin类。
base.ClusterMixin scikit-learn中所有聚类估计量的Mixin类。
base.DensityMixin scikit-learn中所有密度估计量的Mixin类。
base.RegressorMixin scikit-learn中所有回归估计量的Mixin类。
base.TransformerMixin scikit-learn中所有变压器的Mixin类。
功能
base.clone(估算器[,安全]) 构造一个具有相同参数的新估算器。
base.is_classifier(估算器) 如果给定的估算器可能是分类器,则返回True。
base.is_regressor(估算器) 如果给定的估计量(可能是回归量),则返回True。
config_context(\ * \ * new_config) 全局scikit学习配置的上下文管理器
get_config() 检索配置的当前值 set_config
set_config([假定上限,工作中的内存,...]) 设置全局scikit-learn配置
show_versions() 打印有用的调试信息
sklearn.calibration:概率校准
校准预测概率。
calibration.CalibratedClassifierCV([…]) 等渗回归或S形概率校准。
calibration.calibration_curve(y_true,y_prob) 计算校正曲线的真实和预测概率。
sklearn.cluster:聚类
该sklearn.cluster模块收集了流行的无监督聚类算法。
类
cluster.AffinityPropagation([阻尼,...]) 执行数据的相似性传播聚类。
cluster.AgglomerativeClustering([…]) 聚集聚类
cluster.Birch([阈值,branching_factor,...]) 实现Birch聚类算法。
cluster.DBSCAN([eps,min_samples,指标,...]) 从向量数组或距离矩阵执行DBSCAN聚类。
cluster.OPTICS([min_samples,max_eps,…]) 从向量数组估计聚类结构
cluster.FeatureAgglomeration([n_clusters,...]) 聚集功能。
cluster.KMeans([n_clusters,init,n_init,...]) K均值聚类
cluster.MiniBatchKMeans([n_clusters,init,...]) 迷你批次K均值聚类
cluster.MeanShift([带宽,种子,...]) 使用平内核的均值漂移聚类。
cluster.SpectralClustering([n_clusters,...]) 将聚类应用于规范化拉普拉斯算子的投影。
功能
cluster.affinity_propagation(S [,…]) 执行数据的相似性传播聚类
cluster.cluster_optics_dbscan(可达性,…) 对任意epsilon执行DBSCAN提取。
cluster.cluster_optics_xi(可达性,…) 根据Xi-steep方法自动提取群集。
cluster.compute_optics_graph(X,min_samples等) 计算OPTICS可达性图。
cluster.dbscan(X [,eps,min_samples,…]) 从向量数组或距离矩阵执行DBSCAN聚类。
cluster.estimate_bandwidth(X [,分位数,...]) 估计均值漂移算法要使用的带宽。
cluster.k_means(X,n_clusters [,…]) K-均值聚类算法。
cluster.mean_shift(X [,带宽,种子,…]) 使用扁平内核执行数据的均值漂移聚类。
cluster.spectral_clustering(亲和力[,…]) 将聚类应用于规范化拉普拉斯算子的投影。
cluster.ward_tree(X [,连通性,…]) 基于特征矩阵的病房聚类。
sklearn.cluster.bicluster:集群化
频谱双簇算法。
类
SpectralBiclustering([n_clusters,方法,...]) 频谱双聚类(Kluger,2003)。
SpectralCoclustering([n_clusters,...]) 频谱共聚算法(Dhillon,2001)。
sklearn.compose:复合估计器
用于使用变压器构建复合模型的元估计器
compose.ColumnTransformer(变形金刚[,…]) 将转换器应用于数组或熊猫DataFrame的列。
compose.TransformedTargetRegressor([…]) 元估算器可对转换后的目标进行回归。
compose.make_column_transformer(...) 从给定的转换器构造一个ColumnTransformer。
sklearn.covariance:协方差估计器
该sklearn.covariance模块包括在给定点集的情况下稳健地估计特征协方差的方法和算法。还估计了定义为协方差的倒数的精度矩阵。协方差估计与高斯图形模型理论密切相关。
covariance.EmpiricalCovariance([…]) 最大似然协方差估计量
covariance.EllipticEnvelope([…]) 用于检测高斯分布数据集中的异常值的对象。
covariance.GraphicalLasso([alpha,模式,...]) 带有l1惩罚估计量的稀疏逆协方差估计。
covariance.GraphicalLassoCV([alphas,...]) 带有l1罚分的交叉验证选择的稀疏逆协方差。
covariance.LedoitWolf([store_precision,...]) LedoitWolf估算器
covariance.MinCovDet([store_precision,...]) 最小协方差决定因素(MCD):协方差的鲁棒估计器。
covariance.OAS([store_precision,...]) Oracle近似收缩率估算器
covariance.ShrunkCovariance([…]) 收缩率的协方差估计器
covariance.empirical_covariance(X[, …]) 计算最大似然协方差估计量
covariance.graphical_lasso(emp_cov,alpha [,…]) l1惩罚协方差估计器
covariance.ledoit_wolf(X [,假定为中心,…]) 估计缩小的Ledoit-Wolf协方差矩阵。
covariance.oas(X [,假定为居中]) 使用Oracle近似收缩算法估算协方差。
covariance.shrunk_covariance(emp_cov [,…]) 计算对角线上收缩的协方差矩阵
sklearn.cross_decomposition:交叉分解
用户指南:有关更多详细信息,请参见“ 交叉分解”部分。
cross_decomposition.CCA([n_components,...]) CCA典型相关分析。
cross_decomposition.PLSCanonical([…]) PLSCanonical实现了原始Wold算法[Tenenhaus 1998] p.204的2个块规范PLS,在[Wegelin 2000]中称为PLS-C2A。
cross_decomposition.PLSRegression([…]) PLS回归
cross_decomposition.PLSSVD([n_components,...]) 偏最小二乘SVD
sklearn.datasets:数据集
该sklearn.datasets模块包括用于加载数据集的实用程序,包括用于加载和获取流行的参考数据集的方法。它还具有一些人工数据生成器。
用户指南:有关更多详细信息,请参见“ 数据集加载实用程序”部分。
数据集
datasets.clear_data_home([data_home]) 删除数据主目录缓存的所有内容。
datasets.dump_svmlight_file(X,y,f [,…]) 以svmlight / libsvm文件格式转储数据集。
datasets.fetch_20newsgroups([data_home,...]) 从20个新闻组数据集中加载文件名和数据(分类)。
datasets.fetch_20newsgroups_vectorized([…]) 加载20个新闻组数据集并将其向量化为令牌计数(分类)。
datasets.fetch_california_housing([…]) 加载加利福尼亚住房数据集(回归)。
datasets.fetch_covtype([data_home,...]) 加载covertype数据集(分类)。
datasets.fetch_kddcup99([子集,data_home,...]) 加载kddcup99数据集(分类)。
datasets.fetch_lfw_pairs([子集,...]) 在“野生(LFW)”对数据集中加载标签的面部(分类)。
datasets.fetch_lfw_people([data_home,...]) 将标签的面孔加载到Wild(LFW)人数据集中(分类)。
datasets.fetch_olivetti_faces([data_home,...]) 从AT&T(分类)中加载Olivetti人脸数据集。
datasets.fetch_openml([名称,版本,...]) 通过名称或数据集ID从openml获取数据集。
datasets.fetch_rcv1([data_home,子集,...]) 加载RCV1多标签数据集(分类)。
datasets.fetch_species_distributions([…]) Phillips等人的物种分布数据集加载程序。
datasets.get_data_home([data_home]) 返回scikit-learn数据目录的路径。
datasets.load_boston([return_X_y]) 加载并返回波士顿房价数据集(回归)。
datasets.load_breast_cancer([return_X_y]) 加载并返回乳腺癌威斯康星州数据集(分类)。
datasets.load_diabetes([return_X_y]) 加载并返回糖尿病数据集(回归)。
datasets.load_digits([n_class,return_X_y]) 加载并返回数字数据集(分类)。
datasets.load_files(container_path [,…]) 加载带有类别作为子文件夹名称的文本文件。
datasets.load_iris([return_X_y]) 加载并返回虹膜数据集(分类)。
datasets.load_linnerud([return_X_y]) 加载并返回linnerud数据集(多元回归)。
datasets.load_sample_image(图片名称) 加载单个样本图像的numpy数组
datasets.load_sample_images() 加载样本图像以进行图像处理。
datasets.load_svmlight_file(f [,n_features,…]) 将svmlight / libsvm格式的数据集加载到稀疏CSR矩阵中
datasets.load_svmlight_files(文件[,…]) 从SVMlight格式的多个文件加载数据集
datasets.load_wine([return_X_y]) 加载并返回葡萄酒数据集(分类)。
样本生成器
datasets.make_biclusters(形状,n_clusters) 生成具有恒定块对角线结构的数组以进行双聚类。
datasets.make_blobs([n_samples个,n_features个,...]) 生成各向同性的高斯斑点以进行聚类。
datasets.make_checkerboard(形状,n_clusters) 生成具有棋盘格结构的数组以进行二聚类化。
datasets.make_circles([n_samples,随机播放,...]) 在2d中制作一个包含较小圆圈的大圆圈。
datasets.make_classification([n_samples,...]) 生成随机的n类分类问题。
datasets.make_friedman1([n_samples,...]) 生成“ Friedman#1”回归问题
datasets.make_friedman2([n_samples,噪声,...]) 生成“ Friedman#2”回归问题
datasets.make_friedman3([n_samples,噪声,...]) 生成“ Friedman#3”回归问题
datasets.make_gaussian_quantiles([意思, …]) 通过分位数生成各向同性的高斯并标记样本
datasets.make_hastie_10_2([n_samples,...]) 生成Hastie等人使用的二进制分类数据。
datasets.make_low_rank_matrix([n_samples,...]) 生成具有钟形奇异值的低阶矩阵
datasets.make_moons([n_samples,随机播放,...]) 做两个交错的半圈
datasets.make_multilabel_classification([…]) 生成随机的多标签分类问题。
datasets.make_regression([n_samples,...]) 生成随机回归问题。
datasets.make_s_curve([n_samples,噪声,...]) 生成S曲线数据集。
datasets.make_sparse_