基于聚类的采样:提升数据多样性与采样效率
在机器学习的数据采样领域,模型基异常值采样和基于聚类的采样是两种重要的方法。下面将详细介绍它们的特点、操作方法以及相关注意事项。
1. 模型基异常值采样的局限性
使用模型进行异常值采样存在一些主要缺点,具体如下:
- 缺乏多样性 :该方法可能生成相似的异常值,导致在主动学习迭代中缺乏多样性。
- 统计偏差 :难以避免模型中固有的统计偏差,可能会持续遗漏某些类型的异常值。
- 不适合冷启动 :在开始之前需要一个模型,并且随着训练数据的增加,这种方法的效果会更好,因此不适合冷启动。
- 意外采样 :使用未标记数据确定异常值时,容易意外采样到与预期相反的内容,即看起来最不像我们试图用新标签适应的数据。为了解决这个问题,我们使用验证数据进行排名。
2. 基于聚类的采样
聚类可以从一开始就帮助我们选择多样化的数据。其策略很简单,即不随机采样训练数据,而是将数据分成大量的簇,并从每个簇中均匀采样。
2.1 聚类的优势
以新闻标题为例,如果随机采样数据进行人工审核,可能会花费大量时间手动标注关于体育比赛结果的相似标题。但如果对数据进行预聚类,这些标题可能会被归为一个簇,我们只需要标注该体育相关簇中的少数示例即可,这样可以节省大量时间,用于标注其他簇中的数据,而这些其他簇可能代表着更罕见但重要的标题类型,随机采样可能会遗漏这些类型。因此,聚类既节省了时间,又增加了数据的多样性。
超级会员免费看
订阅专栏 解锁全文
51

被折叠的 条评论
为什么被折叠?



