【西瓜书笔记】第八&九章

第八章 集成学习

  1. 序列化方法 个体学习器间有强依赖关系 如Boosting)通过逐步纠正错误来提高模型性能,适合小数据集和高噪声数据。
  2. 并行化方法 个体学习器间无强依赖关系(如Bagging和随机森林)通过随机性和独立性来增强模型的泛化能力,适合大规模数据集。

理想的集成模型需要个体学习器既要准确,又要多样(好而不同)。

  • 准确性:每个学习器都应该尽量正确。
  • 多样性:学习器之间的预测结果应该有差异,以便互补。

但是这两者存在冲突:

  • 如果个体模型太过追求“准确”,它们往往会变得“相似”,缺乏多样性。
  • 如果个体模型过于“多样”,它们的准确性可能会下降,影响整体效果。

核心问题:如何在准确性和多样性之间找到平衡,产生“好而不同”的学习器?

Boosting

逐步修正错误样本的权重,通过一系列弱学习器的组合,提升整体模型性能。

AdaBoost

Boosting的一种,通过动态调整样本权重,更多注意难分类样本,构建强学习器。

Bagging

通过多次随机采样生成子训练集,独立训练多个模型,并综合预测结果以降低方差和提升模型稳定性。

随机森林

Bagging的改进版本,引入特征随机性,结合多个决策树模型,提升泛化能力和抗噪性。

第九章 聚类

聚类目标:将数据集中的样本划分为若干个通常不相交的子集

外部指标

指标公式取值范围越大越好?
Jaccard 系数JC=aa+b+cJ**C=a+b+c**a[0, 1]
FM 指数FMI=aa+b⋅aa+cFM**I=a+b**aa+c**a[0, 1]
Rand 指数RI=a+d(m2)R**I=(2m)a+d[0, 1]

内部指标

  • DBI 越小越好,适用于分析簇的紧密性和分离性比值。
  • DI 越大越好,适用于评估分离性和紧密性的综合表现

原型聚类

  • 学习向量量化(LVQ)
    • 用“代表点”总结数据的类别。
    • 算法:根据数据的真实标签调整代表点的位置,让它更靠近同类点,远离异类点。
  • 高斯混合聚类(GMM)
    • 假设数据来自多个高斯分布,找出这些分布的参数。
    • 通过“期望最大化(EM)”优化,每个点根据概率属于某簇。

密度聚类

  • DBSCAN
    • 根据密度找簇。高密度区域形成簇,稀疏区域是噪声。
    • 以某点为核心点扩展邻域,形成密度连接的簇。

层次聚类

  • AGNES 自底向上
    • 从每个点单独成簇开始,逐步合并最近的簇,构建树状图。
    • 不断计算簇间距离(如最小距离、最大距离),合并最相似的两个簇。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值