
Sklearn
学习不易
直到有一天,可以和你并肩站立
展开
-
sklearn决策树 一维回归图像的绘制
在二维平面上观察决策树如何拟合一条曲线,使用回归树拟合正弦曲线,并添加噪声观察回归树的表现。import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as pltrng = np.random.RandomState(1)X = np.sort(5 * rng.ran...原创 2020-02-08 01:27:03 · 694 阅读 · 0 评论 -
sklearn线性回归模型
从sklearn中下载了加利福尼亚的房价模型,可能需要下载。使用线性回归的方法对数据进行训练。可以得到每个的系数并且观察每个因素对结果的影响大小。其中人口数据项有小数点处理过了,其实影响因素特别的小。from sklearn.linear_model import LinearRegression as LRfrom sklearn.model_selection import trai...原创 2020-01-28 13:47:37 · 1603 阅读 · 0 评论 -
sklearn基于轮廓系数来选择n_clusters
通常使用绘制轮廓系数分布图和聚类后的数据分布图来选择最佳的n_clusters。from sklearn.cluster import KMeansfrom sklearn.metrics import silhouette_samples, silhouette_scorefrom sklearn.datasets import make_blobsimport matplotlib.p...原创 2020-01-23 23:38:56 · 1666 阅读 · 2 评论 -
sklearn聚类KMeans
KMeans是最简单的聚类算法了,算法将一组N个样本的特征矩阵划分为K个无交集的簇,直观上来看是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。n_clusters是KMeans中的k,k=模型划分为几类(必填参数,默认为8),但我们通常的结果会是一个小于8的结果。代码实现(观察数据集的数据分布):from sklearn.datasets import make_blobsf...原创 2020-01-23 21:22:42 · 217 阅读 · 0 评论 -
sklearn逻辑回归中损失函数与正则化
在随机森林和决策树中,存在两种模型表现:训练集上和测试集上的表现。在建模过程中,追求模型在测试集上表现最优,因此模型的评价指标往往是用来衡量模型在测试集上的表现。然而逻辑回归有着基于训练数据求解参数的需求,并且希望训练出来的模型能够尽可能的拟合训练数据,即模型在训练集上的预测准确率越靠近100%越好。因此使用“损失函数”这个评估指标,来衡量参数的优劣,即这一参数能否是模型在训练集上表现优异。如...原创 2020-01-23 15:46:26 · 2200 阅读 · 0 评论 -
鸢尾花数据集降维后高维数据可视化
重要参数n_components鸢尾花数据集是一个四维变量,为实现其可视化,可以降维到二维。使用sklearn中的PCA实现。代码实现:import matplotlib.pyplot as pltfrom sklearn.datasets import load_irisfrom sklearn.decomposition import PCAiris = load_iris()...原创 2020-01-17 23:56:20 · 3209 阅读 · 0 评论 -
sklearn处理分类型特征:编码与哑变量
我们刚才已经用OrdinalEncoder把分类变量Sex和Embarked都转换成数字对应的类别了。在舱门Embarked这一 列中,我们使用[0,1,2]代表了三个不同的舱门,然而这种转换是正确的吗?我们来思考三种不同性质的分类数据:1) 舱门(S,C,Q) 三种取值S,C,Q是相互独立的,彼此之间完全没有联系,表达的是S≠C≠Q的概念。这是名义变量。2) 学历(小学,初中,高中) 三种...原创 2020-01-17 22:22:30 · 2653 阅读 · 1 评论 -
sklearn 分类转换为分类数值
preprocessing.LabelEncoder标签专用,能够将分类转换为分类数值preprocessing.OrdinalEncoder特征专用,能够将分类特征转换为分类数值将原本的Sex,原本为male与female,现在将这两个数据转换为0和1 。原本的Embarked,不同的舱位,有SCQ三种,现在可以转换为0、1、2 。Servived有Yes、No、Unknown,转换...原创 2020-01-17 20:21:45 · 1431 阅读 · 0 评论 -
sklearn 数据填补缺失值
机器学习和数据挖掘中所使用的数据,永远不可能是完美的。很多特征,对于分析和建模来说意义非凡,但对于实 际收集数据的人却不是如此,因此数据挖掘之中,常常会有重要的字段缺失值很多,但又不能舍弃字段的情况。因 此,数据预处理中非常重要的一项就是处理缺失值。从kaggle中简单的获取的泰坦尼克号的遇难者生存数据,对其中缺失的值进行填充,其中年龄可以用中位数,舱位可以用众数。import pandas ...原创 2020-01-17 00:32:44 · 1883 阅读 · 0 评论 -
Sklearn 数据标准化
当数据(x)按均值(μ)中心化后,再按标准差(σ)缩放,数据就会服从为均值为0,方差为1的正态分布(即标准正态分 布),而这个过程,就叫做数据标准化。from sklearn.preprocessing import StandardScalerdata=[[-1,2],[-0.5,6],[0,10],[1,18]]scaler = StandardScaler()scaler.fit...原创 2020-01-16 06:02:10 · 501 阅读 · 0 评论 -
Sklearn 数据归一化处理
利用preprocessing.MinMaxScaler实现数据归一化MinMaxScaler有一个重要参数,feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。pd.DataFrame(data):将numpy数组展示为表格形式from sklearn.preprocessing import MinMaxScalerdata = [[-1, 2], [-0....原创 2020-01-14 16:23:15 · 7221 阅读 · 1 评论 -
Sklearn 乳腺癌数据调参
from sklearn.datasets import load_breast_cancerfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_score...原创 2020-01-14 16:06:11 · 1127 阅读 · 0 评论 -
Sklearn 决策树与随机森林
from sklearn import treefrom sklearn.datasets import load_winefrom sklearn.model_selection import train_test_splitimport pandas as pdwine = load_wine()wine.data.shapewine.targetpd.concat([pd....原创 2020-01-14 16:06:17 · 502 阅读 · 0 评论