决策树、随机森林与k-means聚类算法

本文详细介绍了决策树的构建原则及优缺点,并探讨了随机森林如何克服决策树的局限性。此外,还深入解析了K-means算法的工作原理及其目标函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

决策树的构建满足信息熵增益最大化原则

决策树的优点:

  • 可解释性高
  • 能处理非线性的数据
  • 不需要数据归一化
  • 可以用于特征工程
  • 对数据分布没有偏好
  • 广泛使用
  • 容易软件实现
  • 可以转化为规则

决策树的弱点

  • 启发式生成,不是最优解
  • 容易过拟合
  • 微小的数据改变会改变整个树的形状
  • 对类别不平衡的数据不友好

随机森林指训练多个决策树结果,预测时回归取均值,分类取众数
随机体现在带放回的随机取数据子集做训练数据,随机选择的特征子集中选择一个特征
随机森林消除了决策树容易过拟合的缺点,不会因为训练数据的小变化而剧烈变化

K-means算法

初始化:随机选择K个点,作为初始中心点,每个点代表一个group.
交替更新:
步骤1.计算每个点到所有中心点的距离,把最近的距离记录下来并赋把group赋给当前的点
步骤2.针对于每一个group里的点,计算其平均并作为这个group的新的中心点(重心:分别每个维度的坐标和除以坐标个数)。
如果中心点不再变化就停止

一定会收敛吗? 一定收敛
不同的初始化结果,会不会带来不一样的结果?会不一样
K-Means的目标函数是什么? 非凸函数,局部最优不一定是全局最优
$ \sum_{i=1}^n \sum_{k=1}^k r_{ik}(x_i-u_k) $
步骤1:假定u已知求r最优解 步骤2:假定r已知求u最优解
K如何选择?求出k=2-n的目标函数的值

其他聚类算法:GMM、层次聚类、Spectral Clustrering、DBSCAN、Kernel K-Means...

转载于:https://www.cnblogs.com/igofreely/p/11218459.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值