集成学习与多视角学习全解析
1. 训练集划分方案
在机器学习中,将一个集合划分为子集是一项重要的操作,这有助于提高模型的性能和效率。常见的划分方案有以下几种:
- 随机划分 :
- 这是最简单的划分方案,提前确定子集的数量和大小。对于每个子集,随机选择一个训练示例并将其包含在子集中。
- 根据是否有放回的随机选择,可分为重叠划分(有放回)和互斥划分(无放回)。每种划分都用于在集成学习中训练一个机器学习算法。
- 基于聚类的划分 :
- 聚类是将一组数据项分割成子组的过程,每个子组包含相似的数据项。
- 使用无监督学习算法根据训练示例的相似性将其聚类,形成多个子组,这些子组成为训练示例的子集。每个聚类用于训练其对应的机器学习算法。
- 重叠划分与模糊划分 :
- 重叠划分允许子集之间有任何重叠,即任何训练示例可以存在于两个子集的交集中。
- 模糊划分是重叠划分的扩展,为每个训练示例的成员资格赋予一个介于 0 和 1 之间的连续值。而在重叠划分中,成员资格为 0 或 1。
| 划分方案 | 特点 |
|---|---|
| 随机划分 | 简单,通过随机选择元素划分子集 |
| 基于聚类的划分 | 根据元素相似性聚类,每个聚类为一个子集 |
超级会员免费看
订阅专栏 解锁全文
15万+

被折叠的 条评论
为什么被折叠?



