
机器学习
隐者之王
这个作者很懒,什么都没留下…
展开
-
xgboost的调参步骤
参数含义是否需要调参booster[默认gbtree]迭代模型 gbtree或gbliner否silent[默认0]1时不输出信息否nthread[默认最大可能线程数]否eta[默认0.3]学习率是0.01-0.2min_child_weight[默认1]最小叶子节点样本权重和;回归问题里min_child_weight代表的意思是,...转载 2020-03-06 18:44:47 · 1288 阅读 · 0 评论 -
特征选择---SelectKBest
在sklearn中特征选择函数SelectKBestfrom sklearn.feature_selection import SelectKBest调用方式#skb = SelectKBest(chi2, k=3) ## 只考虑3个维度#X1_train = skb.fit_transform(X1_train, Y1_train) ## 训练模型及特征选择参数1、score_fun...原创 2020-03-05 21:43:46 · 5587 阅读 · 0 评论 -
sklearn的K折交叉验证函数KFold使用
K折交叉验证时使用:KFold(n_split, shuffle, random_state)参数:n_split:要划分的折数shuffle: 每次都进行shuffle,测试集中折数的总和就是训练集的个数random_state:随机状态 from sklearn.model_selection import KFold kf = KFold(5, True, 10) X, Y...原创 2020-01-28 08:37:59 · 4829 阅读 · 0 评论 -
集成学习之bagging及随机森林的python实现
集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。 弱分类器(weak learner)指那些分类准确率只稍微好于随机猜测的分类器(error rate < 0.5);集成算法的成功在于保证弱分类器的多样性(Diversity)。而且集成不稳定的算法 也能够得到一个比较明显的性能提升。常见的集成学习思想有:BaggingBoostingStackin...原创 2020-01-05 22:37:51 · 1228 阅读 · 0 评论 -
KNN算法及其python实现
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻...原创 2020-01-05 10:06:08 · 441 阅读 · 0 评论 -
LabelBinarizer 函数与独热编码
数据处理时有时需要将离散特征进行独热编码或者哑变量编码。两者的区别如下所示上述图片引用自 https://www.cnblogs.com/lianyingteng/p/7792693.html两者区别似乎不是很大。LabelBinarizer 将标签矩阵二值化from sklearn import preprocessingfrom sklearn import tree# hel...转载 2020-01-05 09:51:41 · 2040 阅读 · 0 评论 -
logistic回归算法进行分类的python实现
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。下面基于logistic回归对乳腺癌分类进行研究import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimp...原创 2020-01-04 20:40:07 · 2339 阅读 · 0 评论 -
sklearn中pipeline的实现,及GridSearchCV寻找最优参数
Pipeline可以将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处:直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。可以结合grid search对参数进行选择。...原创 2020-01-04 18:51:28 · 1866 阅读 · 1 评论 -
线性回归模型中的过拟合比较及不同模型的比较,python实现
在进行回归模型预测时,当变量间的线性关系不足,会出现欠拟合,即模型得分低,决定系数低,于是我们可以进行多项式拓展来提升模型的准确性,但是随着多项式拓展阶数的提升,很容易产生过拟合,即由于模型过分契合训练集,导致测试集的得分反而低,这便是我们需要关注的过拟合import numpy as npimport matplotlib as mplimport matplotlib.pyplot as...原创 2019-12-24 22:49:57 · 2058 阅读 · 0 评论 -
线性回归中的多项式拓展及pyhton实现
在利用线性回归进行预测时,经常由于数据的线性关系不好,导致模型出现欠拟合,lr。score比较低,就是决定系数低,这时候我们可以用多项式拓展方式来改进、多项式扩展,可以认为是对现有数据进行的一种转换,通过将数据映射到更高维度的空间中,该模型就可以拟合更广泛的数据。需注意:多项式拟合的应用,仍然变为线性模型下面是多项式拓展的实现# 引入所需要的全部包import sklearnfrom ...原创 2019-12-24 18:27:30 · 325 阅读 · 0 评论 -
如何用python进行最小二乘分析
首先需要理解基于最小二乘法求解参数其中涉及到了 损失函数,最大似然估计等内容,经过一系列计算后得到的结果就是所以用python实现最小二乘法估计的方法如下所示# 引入所需要的全部包from sklearn.model_selection import train_test_splitimport numpy as npimport matplotlib as mplimport ma...原创 2019-12-24 16:09:21 · 2882 阅读 · 0 评论