
机器学习
文章平均质量分 87
关于机器学习
DJ.马
生物与医药研究员
展开
-
GBDT算法原理以及实例理解
在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是都是CART回归树。对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。转载 2023-12-17 16:01:55 · 248 阅读 · 0 评论 -
xgboost机器学习算法通俗理解
通过这个例子,你可以更深入地理解 XGBoost 的原理:通过迭代训练多个决策树,每个决策树都试图纠正前面决策树的错误,最终将它们集成在一起,以获得更准确的预测结果。就像你在制作咖啡时,通过多次尝试和调整,最终得到了最好口味的咖啡一样,XGBoost 通过集成多个决策树的预测结果,得出了更准确的预测。通过这个例子,你可以理解 XGBoost 模型的原理:通过迭代训练多个决策树,每个决策树都试图纠正之前决策树的错误,最终将它们组合起来,以获得更准确的预测结果。想象一下,你正在准备一杯美味的咖啡。原创 2023-12-17 15:22:17 · 1011 阅读 · 0 评论 -
【机器学习算法】机器学习:支持向量机(SVM)
1.1,概念支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。转载 2023-11-18 20:36:23 · 505 阅读 · 2 评论 -
【机器学习算法】分类算法之随机森林(Random Forest)
前言随机森林(Random Forest) 是Bagging(一种并行式的集成学习方法)的一个拓展体,它的基学习器固定为决策树,多棵树也就组成了森林,而“随机”则在于选择划分属性的随机,随机森林在训练基学习器时,也采用有放回采样的方式添加样本扰动,同时它还引入了一种属性扰动,即在基决策树的训练过程中,在选择划分属性时,Random Forest先从候选属性集中随机挑选出一个包含K个属性的子集,再从这个子集中选择最优划分属性,一般推荐K=log2(d)。转载 2023-11-18 19:25:37 · 6983 阅读 · 0 评论