11.XGBoost

集成算法:
  -1. Bagging
    随机森林
	  多个基模型的构建是基于不同数据来构建
  -2. Boosting
    通过迭代的形式基于之前构建好的模型,对样本数据做一定的修正,然后影响之后的模型构建,
    模型构建的方向或者目的:让预测更准,让误差更小。
    Adaboost
	  通过修正样本的权重
	GBDT
	  通过修正样本的预测值label标签值
  -3. Stacking

01_XGBoost概述

02_XGBoost安装讲解

07:29- 讲解XGBoot的官网,以及安装

03_XGBoost原理讲解一 

决策树:
  构建的方向:让数据集更纯,每次选择划分之后纯度变化最大的这个特征作为数据的划分特征
  纯的度量指标:信息熵、gini系数、错误率、MSE、MAE
  划分特征选择的衡量指标:信息增益、信息增益率
  算法:
    ID3
	  分类决策树、多分枝的决策树
	C4.5
	  分类决策树、多分枝的决策树
	CART
	  分类&回归的决策树、二分枝的决策树

 3.1 GBDT 的目标函数

 

 

**43: 36 - 01:30 XGBoost公式推导 

为什么要考虑损失函数?

XGBoost和GBDT比较
  -1. XGBoost在GBDT的基础上加入了正则化项,防止模型过拟合
  -2. XGBoost在构建的过程中考虑的二阶导函数,GBDT只考虑一阶导函数
  -3. XGBoost中的决策树的构建是基于损失函数,GBDT内的决策树(CART)是基于MSE\MAE
  \Gini系数....  
  -4. XGBoost中支持列采样(类似随机森林的方式),可以降低过拟合的情况
  -5. XGBoost的并行计算指的是划分特征选择过程中是并行计算的
  -6. XGBoost底层支持CART、线性回归、逻辑回归等多种算法,GBDT只支持CART。

**01:21-01:26???

 

 解析:
1、列采样:不会取所有的值,只取部分值
2、把缺失值当做一种特征
3、并行计算指的是划分特征选择过程中是并行计算的,模型的构建还是串行的
5、底层支持CART、线性回归、逻辑回归等多种算法,GBDT只支持CART
6、一般情况下不会自定义损失函数

06_聚类算法概述_转

  ** 01:30- 01:51

分类: objective: binary:logistic 
回归: objective: reg:linear

 *01:30-01:32 01:36-01:40:15  通过官网看api 

http://xgboost.readthedocs.io/en/latest/python/python_api.html#modulexgboost.sklearn

注意:
    1、如果不做模型的参数调优,优先选择GBDT(相对稳定)
    2、当GBDT的运行速度和运行效果达不到要求的时候,这时候使用XGBOOT(需要调参)

xgboost库是一种高效的机器学习库,主要用于梯度提升树算法。其中,DMatrix是xgboost库中的一个类,用于存储训练数据集。下面是DMatrix类的常用方法: 1. DMatrix(data, label=None, weight=None, base_margin=None, missing=None, silent=False, feature_names=None, feature_types=None) 用于创建DMatrix对象。其中,data可以是numpy数组或pandas DataFrame格式的训练数据集;label用于指定训练数据集的标签;weight用于指定训练数据集的样本权重;base_margin用于指定训练数据集的初始预测值;missing用于指定缺失值的表示方式;silent用于控制是否输出日志信息;feature_names用于指定特征名称;feature_types用于指定特征类型。 2. DMatrix.save_binary(fname) 用于将DMatrix对象保存为二进制文件。 3. DMatrix.load_binary(fname) 用于从二进制文件中加载DMatrix对象。 4. DMatrix.num_col() 返回DMatrix对象中特征的数量。 5. DMatrix.num_row() 返回DMatrix对象中样本的数量。 6. DMatrix.slice(rows) 返回DMatrix对象中指定行数的子集。 7. DMatrix.get_label() 返回DMatrix对象中样本的标签。 8. DMatrix.set_label(label) 用于设置DMatrix对象中样本的标签。 9. DMatrix.get_weight() 返回DMatrix对象中样本的权重。 10. DMatrix.set_weight(weight) 用于设置DMatrix对象中样本的权重。 11. DMatrix.get_base_margin() 返回DMatrix对象中样本的初始预测值。 12. DMatrix.set_base_margin(base_margin) 用于设置DMatrix对象中样本的初始预测值。 13. DMatrix.get_feature_names() 返回DMatrix对象中特征的名称。 14. DMatrix.set_feature_names(feature_names) 用于设置DMatrix对象中特征的名称。 15. DMatrix.get_feature_types() 返回DMatrix对象中特征的类型。 16. DMatrix.set_feature_types(feature_types) 用于设置DMatrix对象中特征的类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值