
机器学习
文章平均质量分 95
不断学习机器学习知识,分享学习笔记
潘达斯奈基~
这个作者很懒,什么都没留下…
展开
-
机器学习6--GBDT 梯度提升决策树
GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,每个新的模型的建立是为了使得之前的模型的残差往梯度下降 的方向,与传统的Boosting中关注正确错误的样本加权有这很大的区别在GrandientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值,进而拟合一棵CART回归树。原创 2025-03-11 22:45:39 · 999 阅读 · 0 评论 -
机器学习5-Adaboost
Adaboost算法的核心思想是在每一轮的迭代中,通过增加上一轮弱学习器错误分类的样本权重,并减少那些被正确分类的样本权重,来“迫使”新的学习器更加关注那些“难以分类”的样本。随后,算法将所有弱学习器的预测结果进行加权平均或加权投票,以得到最终的强学习器。原创 2025-03-05 20:33:01 · 1032 阅读 · 0 评论 -
机器学习4-PCA降维
在数据处理过程中,会碰到维度爆炸,维度灾难的情况,为了得到更精简更有价值的信息,我们需要进一步处理,用的方法就是降维。降维有两种方式:特征抽取、特征选择过滤式(打分机制):过滤,指的是通过某个阈值进行过滤,比如经常会看到但可能并不会去用的,根据方差、信息增益、互信息、相关系数、卡方检验、F检验来选择特征。(什么是互信息?在某个特定类别出现频率高,但其他类别出现频率比较低的词条与该类的互信息比较大。通常互信息作为特征词和类别之间的测度,如果特征词属于该类的话,他们的互信息就大)原创 2025-03-05 07:57:17 · 1086 阅读 · 0 评论 -
机器学习3-聚类
与Single-Linkage算法相似,Complete-Linkage的迭代思想是一样的,不同的是合并类时,Single-Linkage是用两个类中距离最小的两个点作为类之间的距离,而Complete-Linkage恰恰相反,用距离最远的两个数据点之间的距离作为两个类之间的距离。每次聚类后,每个样本得到一个轮廓系数,当SC=1时,说明这个点与周围簇距离较远,结果非常好,当SC=0时,说明这个点可能处在两个簇的边界上,当值为负时,该点可能被误分。在聚类不规则形态的点,如果用K-means,效果不会很好。原创 2025-02-26 22:39:12 · 1237 阅读 · 0 评论 -
机器学习2-决策树
将原始数据集进行筛选,分裂成子数据集(每次分几份,以什么条件分)对生成的子数据集不断分裂,直到停止(停止的条件是什么)利用最终生成的n份数据的共性来代表这个节点(如何用节点共性代表未来预测值?总结,决策树的生成说白了就是数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一遍,当树的叶子节点的数据都是一类的时候,则停止分裂。基尼系数是国际上通用的、用来衡量一个国家或地区收入差距的常用指标基尼系数最大为“1”,最小为“0”,越接近0表明收入分配越趋于平等。原创 2025-02-24 23:04:47 · 1003 阅读 · 0 评论 -
机器学习1-SVM 支持向量机
svm总结原创 2025-02-21 08:20:02 · 701 阅读 · 0 评论