
Machine Learning
文章平均质量分 96
qq_24591139
这个作者很懒,什么都没留下…
展开
-
集成学习
Bagging随机森林BoostingAdaboost:普通boostingGBDT:拟合误差xgboost:目标函数加入正则项catboostLightgbm原创 2019-12-02 14:55:30 · 133 阅读 · 0 评论 -
决策树-集成学习(bagging,boosting)-经典算法(RF,iForest,GBDT,XGboost,Adaboost)
决策树构建步骤1、计算当前决策节点的混乱程度。2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。集成学习总的来说可以分为如下两种:1.基于Bagging, 代表算法:随...原创 2019-12-02 14:45:08 · 896 阅读 · 0 评论 -
Lightgbm原理、参数详解及python实例
GDBT1)对所有特征都按照特征的数值进行预排序。2)在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3)找到一个特征的分割点后,将数据分裂成左右子节点。两个方面可改进GDBT降低训练集的规模。降低特征维度。LightGBM重点:对模型训练时样本点的采样优化和特征维度的优化原理1.单边梯度采样算法(Grandient-based One-Side S...原创 2019-09-02 10:14:12 · 20936 阅读 · 1 评论 -
catboost原理、参数详解及python实例
catboost 简介优点:1)它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我在这里介绍这个算法最大的motivtion,有了catboost,再也不用手动处理类别型特征了...原创 2019-09-02 10:23:33 · 12120 阅读 · 2 评论 -
python抽样方法详解及实现
随机抽样—总体个数较少每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。1、抽签法2、随机数法:随机数表、随机数骰子或计算机产生的随机数。分层抽样——总体存在差异且对结果有影响分层抽样是指在抽样时,将总体分成互不相交 [2] 的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。层内...原创 2019-09-06 10:43:10 · 26710 阅读 · 4 评论 -
imblearn算法详解及实例
过采样(Over-sampling)1、RandomOverSampler从少数类的样本中进行随机采样来增加新的样本from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(sampling_strategy={0: 900,2:200,1:300 },random_state=0)X_resa...原创 2019-09-17 14:22:26 · 15154 阅读 · 14 评论 -
Python正态性检验
https://blog.youkuaiyun.com/cyan_soul/article/details/81236124from scipy import statsstats.kstest(df['value'], 'norm', (u, std))# 结果返回两个值:statistic → D值,pvalue → P值# p值大于0.05,很可能为正态分布...原创 2019-09-17 18:58:22 · 2098 阅读 · 0 评论