第八章 集成学习
- 序列化方法 个体学习器间有强依赖关系 如Boosting)通过逐步纠正错误来提高模型性能,适合小数据集和高噪声数据。
- 并行化方法 个体学习器间无强依赖关系(如Bagging和随机森林)通过随机性和独立性来增强模型的泛化能力,适合大规模数据集。
理想的集成模型需要个体学习器既要准确,又要多样(好而不同)。
- 准确性:每个学习器都应该尽量正确。
- 多样性:学习器之间的预测结果应该有差异,以便互补。
但是这两者存在冲突:
- 如果个体模型太过追求“准确”,它们往往会变得“相似”,缺乏多样性。
- 如果个体模型过于“多样”,它们的准确性可能会下降,影响整体效果。
核心问题:如何在准确性和多样性之间找到平衡,产生“好而不同”的学习器?
Boosting
逐步修正错误样本的权重,通过一系列弱学习器的组合,提升整体模型性能。
AdaBoost
Boosting的一种,通过动态调整样本权重,更多注意难分类样本,构建强学习器。
Bagging
通过多次随机采样生成子训练集,独立训练多个模型,并综合预测结果以降低方差和提升模型稳定性。
随机森林
Bagging的改进版本,引入特征随机性,结合多个决策树模型,提升泛化能力和抗噪性。
第九章 聚类
聚类目标:将数据集中的样本划分为若干个通常不相交的子集
外部指标
指标 | 公式 | 取值范围 | 越大越好? |
---|---|---|---|
Jaccard 系数 | JC=aa+b+cJ**C=a+b+c**a | [0, 1] | 是 |
FM 指数 | FMI=aa+b⋅aa+cFM**I=a+b**a⋅a+c**a | [0, 1] | 是 |
Rand 指数 | RI=a+d(m2)R**I=(2m)a+d | [0, 1] | 是 |
内部指标
- DBI 越小越好,适用于分析簇的紧密性和分离性比值。
- DI 越大越好,适用于评估分离性和紧密性的综合表现
原型聚类
- 学习向量量化(LVQ)
- 用“代表点”总结数据的类别。
- 算法:根据数据的真实标签调整代表点的位置,让它更靠近同类点,远离异类点。
- 高斯混合聚类(GMM)
- 假设数据来自多个高斯分布,找出这些分布的参数。
- 通过“期望最大化(EM)”优化,每个点根据概率属于某簇。
密度聚类
- DBSCAN
- 根据密度找簇。高密度区域形成簇,稀疏区域是噪声。
- 以某点为核心点扩展邻域,形成密度连接的簇。
层次聚类
- AGNES 自底向上
- 从每个点单独成簇开始,逐步合并最近的簇,构建树状图。
- 不断计算簇间距离(如最小距离、最大距离),合并最相似的两个簇。