
sklearn
文章平均质量分 73
bingbangx
唯一不变的就是变
展开
-
sklearn 特征工程(总结)
1、特征工程 字典特征抽取from sklearn.feature_extraction import DictVectorizer# 特征抽取的包 文本特征抽取和jieba分词文本的特征抽取,比如说文档分类、垃圾邮件分类和新闻分类。文本分类是通过词是否存在、以及词的概率(重要性)来表示。如果想要统计中文某些词出现的次数,就要先对中文进行分词。jieba tf-idf文本抽取是一种用于信息检索与文本挖掘的常用的加权技术,这种统计方法,用...原创 2021-12-28 17:05:33 · 702 阅读 · 0 评论 -
狭义线性模型与广义线性模型
狭义线性模型:自变量上不可能有高次项,自变量与标签之间不能存在非线性关系;广义线性模型:只要标签与模型拟合出的参数之间的关系是线性的,模型就是线性的。这就是说,只要生成的一系列w之间没有相乘或者相除的关系,就认为模型是线性的。...原创 2020-08-24 14:59:18 · 548 阅读 · 0 评论 -
Python,sklearn多项式回归处理非线性问题
from sklearn.preprocessing import PolynomialFeatures as PFfrom sklearn.linear_model import LinearRegressionimport numpy as nprnd = np.random.RandomState(42) #设置随机数种子X = rnd.uniform(-3, 3, size=100)y = np.sin(X) + rnd.normal(size=len(X)) / 3 #将X升维,准备..原创 2020-08-20 16:13:02 · 1350 阅读 · 0 评论 -
Python,sklearn使用分箱处理非线性问题
使用分箱处理非线性问题。1、导入所需要的库import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.tree import DecisionTreeRegressor2、创建需要拟合的数据集rnd = np.random.RandomState(42) #设置随机数种子X = rnd.uniform(-3, 3, s原创 2020-08-20 10:53:25 · 2575 阅读 · 0 评论 -
sklearn 中线性回归的类/函数
类/函数 含义 普通线性回归 linear_model.LinearRegression 使用普通最小二乘法的线性回归 岭回归 岭回归,一种将L2作为正则化工具的线性最小二乘回归 linear_model.RidgeCV 带交叉验证的岭回归 linear_model.RidgeClassififier 岭回归的分类器 .原创 2020-08-17 10:51:15 · 422 阅读 · 0 评论 -
Python ,SVM模型效果的评估指标
混淆矩阵中:模型整体效果:准确率:1. 准确率Accuracy就是所有预测正确的所有样本除以总样本,通常来说越接近1越好2.捕捉少数类的艺术:精确度,召回率和F1 score:精确度Precision,又叫查准率,表示所有被我们预测为是少数类的样本中,真正的少数类所占的比例。精确度是”将多数类判错后所需付出成本“的衡量。#所有判断正确并确实为1的样本 / 所有被判断为1的样本 #对于没有class_weight,没有做样本平衡的灰色决策边界来说: (y[y ..原创 2020-08-10 22:55:45 · 7462 阅读 · 2 评论 -
sklearn SVM探索核函数在不同数据集上的表现
# 1、导入所需要的类和模块import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormap #from sklearn import svmfrom sklearn.datasets import make_circles, make_moons, make_blobs,make_classification# 2、创建数据集,定义核函数的选择n_samp.原创 2020-08-08 00:01:37 · 499 阅读 · 1 评论 -
sklearn.svm.SVC中kernel参数说明
sklearn.svm.SVC中kernel参数说明常用核函数 线性核函数kernel='linear' 多项式核函数kernel='poly' 径向基核函数kernel='rbf' sigmod核函数kernel='sigmod' 常用核函数线性核函数kernel=‘linear’采用线性核kernel='linear’的效果和使用sklearn.svm.LinearSVC实现的效果一样,但采用线性核时速度较慢,特别是对于大数据集,推荐使用线性核时使用LinearS.转载 2020-08-07 11:04:02 · 4343 阅读 · 2 评论 -
Python 线性SVM决策过程的可视化
# 1、导入需要的模块from sklearn.datasets import make_blobsfrom sklearn.svm import SVCimport matplotlib.pyplot as pltimport numpy as np# 2、实例化参数,可视化数据集X,y = make_blobs(n_samples=50, centers=2, random_state=0,cluster_std=0.6)plt.scatter(X[:,0],X[:,1],.原创 2020-08-07 10:33:19 · 3513 阅读 · 2 评论 -
Python,SVM画决策边界:制作网格,函数meshgrid的用法
#使用meshgrid函数将两个一维向量转换为特征矩阵#核心是将两个特征向量广播,以便获取y.shape * x.shape这么多个坐标点的横坐标和纵坐标用一个简单的小例子来说明:a = np.array([1,2,3])aOut[26]: array([1, 2, 3])b = np.array([7,8])bOut[27]:array([7, 8])v1,v2 = np.meshgrid(a,b)v1Out[28]: array([[1, 2...原创 2020-08-07 00:04:02 · 1000 阅读 · 0 评论 -
Python 聚类算法用于降维,KMeans的矢量量化应用
1、导入所用的库import numpy as npimport matplotlib.pyplot as pltfrom sklearn.cluster import KMeansfrom sklearn.metrics import pairwise_distances_argmin# 对两个序列中的点进行距离匹配的函数from sklearn.datasets import load_sample_image# 导入图片数据所用的类from sklearn.utils import .原创 2020-08-06 00:20:04 · 719 阅读 · 3 评论 -
assert的功能
# assert的功能# assert 相当于raise error if not ,表示为“不为True就报错”# 要求d必须等于3,如果不等于,就报错。d_ = 5assert d_ ==3,"一个格子中的颜色种类不等于3种"当d_ = 3时,就不会报错。...原创 2020-08-05 17:33:52 · 282 阅读 · 0 评论 -
Kmeans聚类分析的参数、属性、接口
参数n_clusters:KMeans中的k,表示着我们告诉模型我们要分几类。init & random_state & n_init:初始质心怎么放好max_iter & tol:让迭代停下来属性:接口:(根据菜菜的机器学习sklearn课堂整理)...原创 2020-08-05 13:06:40 · 1641 阅读 · 0 评论 -
sklearn中time()的使用
# time():记下每一次time()这一行命令的时间戳# 时间就是一行数字,用来记录此刻的时间通过使用这个,可以返回两次的时间差如:from time import timeplus = KMeans(n_clusters = 10).fit(X)plus.n_iter_to =time()random = KMeans(n_clusters = 10,init="random",random_state=420).fit(X)random.n_iter_time()-to原创 2020-08-05 11:44:38 · 865 阅读 · 0 评论 -
基于轮廓系数来选择n_clusters(Kmeans聚类分析)
1、导库from sklearn.cluster import KMeansfrom sklearn.metrics import silhouette_samples, silhouette_scoreimport matplotlib.pyplot as pltimport matplotlib.cm as cm # colormapimport numpy as np# 基于我们的轮廓系数来选择最佳的n_clusters# 想要知道每个聚出来的类的轮廓系数是多少,还想要一个.原创 2020-08-05 10:04:53 · 4594 阅读 · 1 评论 -
make_blobs方法的使用
make_blobs方法:sklearn.datasets.make_blobs(n_samples=100,n_features=2,centers=3, cluster_std=1.0,center_box=(-10.0,10.0),shuffle=True,random_state=None)make_blobs函数是为聚类产生数据集,产生一个数据集和相应的标签n_samples:表示数据样本点个数,默认值100n_features:是每个样本的特征(或属性)数,也表示数据的维度,默认值是原创 2020-08-04 16:19:43 · 23122 阅读 · 2 评论 -
无监督学习与有监督学习
决策树,随机森林,逻辑回归,他们虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,即需要特征矩阵X,也需要真实标签y。聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于我们的业务需求或建模需求来完成,也可以单纯地帮助我们探索数据的自然结构和分布。 聚类 分类 核心 将数据分成多个组 探索每个组的数据是否有联系 从已经分组的数据中去学习 把新数据放到已经分好的.原创 2020-07-29 11:21:14 · 818 阅读 · 0 评论 -
sklearn中的类及用法 小结2
sklearn中的决策树,模块sklearn.tree tree.DecisionTreeClassififier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用 tree.ExtraTreeClassififier 高随机版本的分类树 tree.ExtraTreeRegressor 高随机版本的回归树 tree.DecisionTreeClassifier() #实...原创 2020-07-20 22:49:32 · 313 阅读 · 0 评论 -
数据特征工程(sklearn小结1)
# Datawhale 零基础入门数据挖掘-Task3 特征工程**赛题:零基础入门数据挖掘 - 二手车交易价格预测**地址:[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX](https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.1.转载 2020-07-20 17:17:35 · 270 阅读 · 0 评论 -
逻辑回归的优点及构建模型的思路
逻辑 回归返回的数字,即便本质上不是概率,却也有着概率的各种性质,可以被当成是概率来看待和使用。主要应用在金融领域逻辑的优点:1、逻辑回归对线性关系的拟合效果好;2、逻辑回归计算快;3、逻辑回归返回的分类结果不是固定的0,1,而是以小数形式呈现的类概率数字;4、抗噪能力强逻辑回归在sklearn.linear_model下面...原创 2020-07-19 23:49:33 · 3327 阅读 · 0 评论 -
利用PCA实现降维的一般步骤
为了方便以后得到数据,就可以get到要从什么地方入手,所以整理PCA降维思路。主要可以分为以下几步:一、导入需要的模块和库二、导入数据,探索数据三、画累计方差贡献率,找最佳降维后维度的范围四、降维后维度的学习曲线,继续缩小最佳维度的范围五、细化学习曲线,找出降维后的最佳维度六、导入找出的最佳维度进行降维,查看模型效果七、如果维度已经降下来了,可以考虑利用KNN观察一下模型的效果。八、利用KNN的k值学习曲线,寻找最佳k值九、根据定下的参数,观察模型效果如何。...原创 2020-07-19 21:55:46 · 3729 阅读 · 0 评论 -
sklearn中的降维算法PCA和SVD(参数、属性、接口)
sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。原创 2020-07-18 21:33:37 · 1474 阅读 · 0 评论 -
数据挖掘的流程及方法
第一,获取数据;第二,数据预处理; 目的:让数据适应模型,匹配模型的需求;第三,特征工程;t 目的:1)降低计算成本;2)提升模型上限第四,建模,测试模型并预测结果;第五,上线,验证模型效果。...原创 2020-07-11 23:06:46 · 673 阅读 · 0 评论 -
寻找数据集最佳的缺失值的填补方法(分析思路的整理)
如何寻找使用的数据集最佳的缺失值的填补方法(分析思路的整理):第一步,导入需要用到的库;第二步,导入完整的数据集并进行探索,以波士顿数据为例 例如:将特征数据集和标签数据集分出来X_full, y_full = dataset.data, dataset.target # 找出特征列的的行列的范围n_samples = X_full.shape[0] n_features = X_full.shape[1] 第三步,为完整数据集放入缺失值 ...原创 2020-07-08 22:47:15 · 2622 阅读 · 0 评论 -
随机森林的重要参数(分类器和回归器)
随机森林分类器的重要参数:criterion、splitter、max_depth、min_samples_leaf &min_samples_split、max_features & min_impurity_decrease具体的使用可参考DecisionTreeClassifier重要参数、属性、接口(实现一棵树,随机性参数)这篇的使用。n_estimators:森林中数木的数量,即基评估器的数量,这个参数的数量越大,模型的效果越好。# 随机森林的重要属性之一:estimat.原创 2020-07-07 10:14:28 · 6251 阅读 · 0 评论 -
集成算法(概述)
集成算法的目标:集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器,组成每个评估器的每个模型都叫做基评估器。一般有三种集成算法:装袋法(模型独立,互相平衡),提升法(模型有序,逐渐提升)和stacking。袋装法的代表模型就是随机森林。sklearn中的集成算法模块ensemble在集成算法中有一般以上都是树的集成模型。...原创 2020-07-06 11:43:44 · 423 阅读 · 0 评论 -
使用决策树做预测的基本思路及注意事项
每天学习一点点,开始啦!记录自己的成长史,哈哈哈????????????导入的路径书写格式:直接复制路径在路径前加字母r,如:pd.read_csv(r'C:\Program Files'); 将复制的路径的下划线改为向左的下划线,如:pd.read_csv('C:/Program Files');基本思路:导入需要用到的库 导入数据集,探索数据 对数据进行预处理 提取标签和特征矩阵,分测试集和训练集 导入模型,粗略地看一下结果 在不同max_depth下观察模型的拟合状况,调原创 2020-07-05 16:57:35 · 2850 阅读 · 1 评论 -
交叉验证的应用
利用原本的数据集,记录交叉验证的各参数应用:1、导入需要用到的库from sklearn.datasets import load_bostonfrom sklearn.model_selection import cross_val_scorefrom sklearn.tree import DecisionTreeRegressor2、进行交叉验证boston = load_boston()regressor = DecisionTreeRegressor(random_sta原创 2020-07-04 23:47:00 · 418 阅读 · 0 评论 -
一维回归的图像绘制(随机数)
在绘制一维回归的图像时,这个小例子采用随机数进行一个简单的操作,一共分为五步:导入用到的库;创建一条含有噪声的曲线;实例化训练模型;将测试集导入模型,预测结果;画图观察哪种模型的效果更好。1、导入需要哟个到的库import numpy as npfrom sklearn.tree import DecisionTreeRegressorimport matplotlib.pyplot as plt2、创建一条含有噪声的正弦曲线rng = np.random.RandomState(1原创 2020-07-04 22:44:33 · 533 阅读 · 0 评论 -
DecisionTreeRegressor重要参数、接口、属性
重要参数:criterion 回归树衡量分枝质量的指标,支持的标准有三种: 1)输入"mse"使用均方误差mean squared error(MSE),父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失 2)输入“friedman_mse”使用费尔德曼均方误差,这种指标使用弗里德曼针对潜在分枝中的问题改进后的均方误差 3)输入"mae"使用绝对平均误差MAE(mean absolute error),这种指标使用叶节点的中值来原创 2020-07-04 19:11:32 · 3542 阅读 · 1 评论 -
DecisionTreeClassifier重要参数、属性、接口(实现一棵树,随机性参数)
DecisionTreeClassifier重要参数1.criterion要将表格转化成一颗树,决策树需要找出最佳节点和最佳的分枝方法,对分类树来说,衡量这个“最佳”指标“叫做不纯度criterion这个参数正是用来决定不纯度的计算方法。sklearn提供了两种选择:1)输入”entropy“,使用信息熵2)输入”gini“,使用基尼系数决策树的基本流程:直到没有更多的特征可用,或整体的不纯度已经最优,决策树就会停止生长。...原创 2020-07-03 14:55:44 · 3937 阅读 · 0 评论 -
windows系统下Graphviz的安装
graphviz本身是一个软件,需要额外下载,并将其bin加入环境变量之中。1)首先到官网下再这个包并安装。http://www.graphviz.org/2)配置环境变量将Graphviz安装目录下的bin文件夹添加到Path环境变量中系统属性----> 高级----->环境变量将路径添加到Path环境变量中。3)验证使用windows命令界面,输入dot -version,然后按回车,如果显示graphviz的相关版本信息,则安装配置成功。...原创 2020-07-01 17:23:53 · 983 阅读 · 0 评论 -
sklearn中的决策树模块及流程
sklearn 中的决策树一、模块sklearn.treesklearn中的决策树都在“tree”这个模块之下,这个模块共包括五个类:tree.DecisionTreeClassifier 分类树 tree.DecisionTreeRegressor 回归树 tree.export_graphviz 将生成的决策树导出为DOT格式,画图专用 tree.ExtraTreeClassifier 高随机版本的分类树 tree.ExtraTreeRegressor原创 2020-07-01 15:06:38 · 588 阅读 · 0 评论 -
一、sklearn及决策树的了解
本章是决策树在sklearn 中的实现和调参开发环境是Jupyter,所用的库:Python 3.6.4Scikit-learnGraphviz (安装代码pip install graphviz,用于画决策树)Numpy,Pandas,Matplotlib,Scipy一、sklearn 入门scikit-learn,又称为sklearn,开源的机器学习包。通过Numpy,Matplotlib等Python数据计算的库实现高效的算法应用,并且涵盖了所有的主流机器算法。skle原创 2020-07-01 14:38:51 · 201 阅读 · 0 评论