
LightGBM
LGBM 中文文档,翻译自官网
LuCh1Monster
干啥啥不行,吃饭第一名
展开
-
【13】FAQ常见问题解答
文章目录1. 关于 LightGBM的问题1. 关于 LightGBM的问题Q: 在一个有百万个特征的数据集中,(要在很长一段时间后才开始训练或者)训练根本没有开始。解决方法: 对 bin_construct_sample_cnt 用一个较小的值和对 min_data 用一个较大的值。Q: 当在一个很大的数据集上使用LightGBM,我的电脑会耗尽内存。解决方法: 很多方法啊:将 histogram_pool_size 参数设置成你想为 LightGBM 分配的MB (histogram_原创 2020-06-12 23:50:16 · 1056 阅读 · 0 评论 -
【12】进阶主题
文章目录1. 缺失值的处理2. 分类特征的支持3. LambdaRank4. 损失效益梯度提升1. 缺失值的处理LightGBM 通过默认的方式来处理缺失值,你可以通过设置 use_missing=false 来使其无效LigthGBM 通过默认的方式用 NA(NaN) 去表示缺失值,你可以通过设置 zero_as_missing=true 将其变为零。当设置 zero_as_missing=false(默认)时,在稀疏矩阵里(和 LightSVM),没有显示的值视为零。当设置 zero_as_原创 2020-06-12 23:48:56 · 314 阅读 · 0 评论 -
【08】参数优化
文章目录1. 针对 Leaf-wise(最佳优先)树的参数优化2. 针对更快的训练速度3. 处理过拟合1. 针对 Leaf-wise(最佳优先)树的参数优化LightGBM 使用 leaf-wise 的树生长策略,而很多其他流行的算法采用 depth-wise 的树生长策略。与 depth-wise 的树生长策略相较,leaf-wise 算法可以收敛的更快。但是,如果参数选择不当的话,leaf-wise 算法有可能导致过拟合。想要在使用 leaf-wise 算法得到好的结果,这里有几个重要的参数值得注原创 2020-06-12 23:47:55 · 389 阅读 · 0 评论 -
【07】参数
文章目录1. 参数格式2. 核心参数3. 用于控制模型学习过程的参数4. IO 参数5. 目标参数6. 度量参数7. 网络参数8. GPU 参数9. 模型参数10. 其他10.1 持续训练输入分数10.2 权重数据10.3 查询数据该页面包含了 LightGBM 的所有参数。外部链接 : Laurae++ Interactive Documentation更新于 2017/8/4以下参数的 default 已经修改:min_data_in_leaf = 100 => 20min_su原创 2020-06-12 23:46:58 · 533 阅读 · 0 评论 -
【06】实验
文章目录1. 对比实验2. 数据集3. 硬件环境4. 底层5. 设置6. 结论6.1 效率6.2 准确率6.3 内存消耗7. 并行测试7.1 数据集7.2 环境7.3 设置7.4 GPU实验1. 对比实验详细的实验脚本和输出日志部分请参考 repo。2. 数据集我们使用4个数据集进行对比实验,有关数据的细节在下表列出:数据集任务链接训练集特征注释Higgs二分类link10,500,00028使用余下50万个样本作为测试集Yahoo LTR机器学习排序原创 2020-06-12 23:45:38 · 197 阅读 · 0 评论 -
【05】特性
文章目录1. 速度和内存使用的优化2. 稀疏优化3. 准确率的优化3.1 Leaf-wise(Best-first)的决策树生长策略3.2 类别特征值的最优分割4. 网络通信的优化5. 并行学习的优化5.1 特征并行5.1.1 传统算法5.1.2 LightGBM 中的特征并行5.2 数据并行5.2.1 传统算法5.2.2 LightGBM 中的数据并行5.3 投票并行6. GPU 支持7. 应用和度量8. 其他特性这篇文档是对 LightGBM 的特点和其中用到的算法的简单介绍。本页不包含详细的算法原创 2020-06-12 23:44:49 · 191 阅读 · 0 评论 -
【04】Python包的相关介绍
文章目录1. 安装2. 数据接口3. 设置参数4. 训练5. 交叉验证6. 提前停止7. 预测该文档给出了有关 LightGBM Python 软件包的基本演练。其它有用的链接列表Python 例子Python API参数优化1. 安装安装 Python 软件包的依赖 setuptools 、wheel、numpy 和 scipy是必须的,scikit-learn 对于 sklearn 接口和推荐也是必须的:→ pip install setuptools wheel numpy sci原创 2020-06-12 23:43:57 · 235 阅读 · 0 评论 -
【03】快速入门指南
文章目录1. 训练数据格式2. 类别特征支持3. 权重和 Query/Group 数据4. 参数快速查看5. 运行 LightGBM6. 示例本文档是 LightGBM CLI 版本的快速入门指南。参考安装指南先安装 LightGBM。1. 训练数据格式LightGBM 支持 CSV、TSV 和 LibSVM 格式的输入数据文件。Label 是第一列的数据,文件中不包含 head(标题)的。2. 类别特征支持2016/12/5 更新LightGBM 可以直接使用 categorical原创 2020-06-12 23:34:30 · 252 阅读 · 0 评论 -
【02】安装指南
文章目录1. Windows1.1 Visual Studio (or MSBuild)1.2 使用命令行1.3 MinGW2. Linux3. OS X4. Docker4.1 Build MPI 版本4.1.1 Windows4.1.2 Linux4.1.3 OS X4.2 Build GPU 版本4.2.1 Linux4.2.2 Windows4.2.3 Protobuf 支持该页面是 LightGBM CLI 版本的构建指南。要构建 Python 和 R 的软件包,请分别阅读 Python-p原创 2020-06-12 23:33:31 · 314 阅读 · 0 评论 -
【01】前言
LightGBM 是一个梯度 boosting 框架,使用基于学习算法的决策树,它是分布式的、高效的,它具有以下优势:速度和内存使用的优化减少分割增益的计算量通过直方图的相减来进一步的加速减少内存的使用,减少并行学习的通信代价稀疏优化准确率的优化Leaf-wise(Best-first) 的决策树生长策略类别特征值的最优分割网络通信的优化并行学习的优化特征并行数据并行投票并行GPU 支持可处理大规模数据...原创 2020-06-12 23:31:18 · 252 阅读 · 0 评论