
Sklearn
sklearn
thereisnospoon.
记录成长
展开
-
sklearn之网格搜索用法
网格搜索:能够帮助我们同时调整多个参数的技术,枚举技术,给定几个参数的取值范围取最优缺点:给出的参数一定会用上,不能自己舍弃参数,多个参数的搭配可能没有少数几个参数(自己调的)的分数高以决策树为例from sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import GridSearchCVp...原创 2020-02-26 11:36:43 · 1811 阅读 · 0 评论 -
sklearn之多项式回归
多项式回归其实本质上与线性回归一样,在sklearn中,多项式回归与线性回归的使用方法一致,唯一不同的是需要我们自己手动创造多项式(生成新特征),然后再使用线性回归的方法来进行拟合,同样该方法可以在逻辑回归上尝试。多项式变化sklearn.preprocessing.PolynomialFeatures(degree=2,interaction_only=False,include_bias=...原创 2020-02-26 11:26:05 · 2664 阅读 · 0 评论 -
sklearn之SVM,ROC曲线与AUC面积
1.重要参数kernel对于这三个参数的取值问题,直接上网格搜索或学习曲线,因为当gamma的符号变化,或者degree的大小变化时,核函数本身甚至都不是永远单调的。不同核函数在不同数据集上的表现from sklearn.model_selection import train_test_splitfrom sklearn.datasets import load_breast_ca...原创 2020-02-25 20:46:35 · 11151 阅读 · 1 评论 -
sklearn之kmeans
Kmeans工作原理sklearn.cluster.KMeans1.参数n_clustersn_clusters是KMeans中的k,表示着我们告诉模型我们要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,当我们拿到一个数据集,如果可能的话,我们希望能够通过绘图先观察一下这个数据集的数据分布,以此来为我们聚类时输入的n_clusters做一个参考。2.参数init &...原创 2020-02-25 12:00:30 · 1584 阅读 · 0 评论 -
sklearn之逻辑回归
逻辑回归的损失函数无正则项添加正则项sklearn.linear_model.LogisticRegression (penalty=’l2’, dual=False, tol=0.0001, C=1.0,fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’...原创 2020-02-24 18:32:34 · 2509 阅读 · 0 评论 -
sklearn之PCA
属性components_,输出降维后新的特征空间print(PCA(2).fit(x).components_) # svd求出的新的特征空间属性explained_variance_ratio_,查看降维后每个新特征向量所占的信息量占原始数据总信息量的百分比,又叫做可解释方差贡献率print(PCA(2).fit(x).explained_variance_ratio_)# ar...原创 2020-02-24 11:46:24 · 526 阅读 · 0 评论 -
sklearn之特征选择
Embedded嵌入法嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和全部特征对模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以...原创 2020-02-24 10:28:41 · 858 阅读 · 0 评论 -
sklearn之数据预处理
数据归一化preprocessing.MinMaxScaler归一化原理,x减去当前列的最小值,再除以当前列的最大值减最小值(极差)from sklearn.preprocessing import MinMaxScalerdata = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]scaler = MinMaxScaler(feature_range=[0...原创 2020-02-24 09:40:05 · 1012 阅读 · 0 评论 -
sklearn之随机森林
重要参数1.控制基评估器的参数criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择max_depth 树的最大深度,超过最大深度的树枝都会被剪掉 左min_samples_leaf 一个节点在分枝后的每个子节点都必须包含至少min_samples_leaf个训练本,否则分枝就不会发生 左min_samples_split 一个节点必须要包含至少min_samples_spli...原创 2020-02-23 11:13:03 · 925 阅读 · 0 评论 -
sklearn之决策树
1.criterion不填默认基尼系数,填写gini使用基尼系数,填写entropy使用信息增益2.random_state输入任意整数,会一直长出同一棵树,让模型稳定下来,可防止过拟合3.splitter有两种输入值,输入”best",决策树在分枝时虽然随机,但是还是会优先选择更重要的特征进行分枝(重要性可以通过属性feature_importances_查看),输入“random",...原创 2020-02-23 10:25:38 · 337 阅读 · 0 评论