人工智障-XGBoost简介

XGBoost是一种基于梯度提升算法的高效机器学习库,本文详细介绍了其背后的GBDT算法原理,包括如何通过训练多棵决策树逐步降低预测误差,以及XGBoost在传统GBDT基础上的多项改进措施,如引入正则化项防止过拟合,采用二阶可导损失函数提高拟合精度等。

人工智障-XGBoost简介

XGBoost是专注于梯度提升算法的机器学习函数库,此函数库速度快,且学习效果优良。

1,GBDT算法原理

XGBoost实现的是一种通用的Tree Boosting算法,此算法的一个代表为GBDT(梯度提升决策树)。GBDT原理首先利用训练集和样本真正值训练一棵树,然后使用这棵树预测训练集,得到每个样本的预测值,由于预测值与真值存在偏差,所以二者相减可以得到残差,接下来训练第二棵树,此时不使用真值,而是使用残差作为标准答案。两棵树训练完成后,可以再次得到每个样本的残差,训练第三棵树,树的总棵树可以通过监控某些指标来停止训练。预测新样本的时候,每棵树都会有一个输出值,将这些输出值相加,皆可以得到最终预测值。

2,XGBoost的改进

2.1 损失函数从平方损失推广到二阶可导损失

GBDT的核心是在于后面的树是拟合的前面预测值的残差,这样可以一步步逼近真实值。XGBoost的方法是,将损失函数做泰勒展开到二阶,使用前两阶作为改进残差,可以证明,传统GBDT使用的残差是泰勒展开到一阶的结果。

2.2 加入了正则化项

正则化方法是数学中用来解决不适定问题的一种方法,正则化是为了限制模型的复杂度,模型越复杂,越有可能记住训练数据,导致训练误差达到很低,而测试误差很高,也就是发生了过拟合。

2.3支持列抽样

列抽样是指训练每棵树的时候,不是使用所有特征,而是从中抽取一部分来训练这棵树。这种方法是用在随机森林中

3, XGBoost运行这么快

3.1 连续性特征的处理

决策树在训练时进行分叉,对于连续性特征,枚举所有可能分叉点将会十分耗时

3.2 利用数据稀疏性

对离散特征做one-hot处理,



复杂几何的多球近似MATLAB类及多球模型的比较 MATLAB类Approxi提供了一个框架,用于使用具有迭代缩放的聚集球体模型来近似解剖体积模型,以适应目标体积和模型比较。专为骨科、生物力学和计算几何应用而开发。 MATLAB class for multi-sphere approximation of complex geometries and comparison of multi-sphere models 主要特点: 球体模型生成 1.多球体模型生成:与Sihaeri的聚集球体算法的接口 2.音量缩放 基于体素的球体模型和参考几何体的交集。 迭代缩放球体模型以匹配目标体积。 3.模型比较:不同模型体素占用率的频率分析(多个评分指标) 4.几何分析:原始曲面模型和球体模型之间的顶点到最近邻距离映射(带颜色编码结果)。 如何使用: 1.代码结构:Approxi类可以集成到相应的主脚本中。代码的关键部分被提取到单独的函数中以供重用。 2.导入:将STL(或网格)导入MATLAB,并确保所需的函数,如DEM clusteredSphere(populateSpheres)和inpolyhedron,已添加到MATLAB路径中 3.生成多球体模型:使用DEM clusteredSphere方法从输入网格创建多球体模型 4.运行体积交点:计算多球体模型和参考几何体之间的基于体素的交点,并调整多球体模型以匹配目标体积 5.比较和可视化模型:比较多个多球体模型的体素频率,并计算多球体模型与原始表面模型之间的距离,以进行2D/3D可视化 使用案例: 骨科和生物力学体积建模 复杂结构的多球模型形状近似 基于体素拟合度量的模型选择 基于距离的患者特定几何形状和近似值分析 优点: 复杂几何的多球体模型 可扩展模型(基于体素)-自动调整到目标体积 可视化就绪输出(距离图)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值