14、基于聚类的采样：提升数据多样性与采样效率

最新推荐文章于 2025-08-22 13:33:23 发布

火锅底料102

最新推荐文章于 2025-08-22 13:33:23 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：人机协同：数据驱动AI未来文章标签：聚类采样主动学习数据多样性

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/spark7igniter/article/details/151592036

人机协同：数据驱动AI未来专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于聚类的采样：提升数据多样性与采样效率

1. 基于模型的异常值采样的局限性

使用模型进行异常值采样存在一些主要缺点，总结如下：
- 缺乏多样性 ：该方法可能生成相似的异常值，导致在主动学习迭代中缺乏多样性。
- 统计偏差 ：难以避免模型中固有的统计偏差，可能会持续错过某些类型的异常值。
- 不适合冷启动 ：在开始之前需要一个模型，并且随着训练数据的增加，这种方法的效果会更好，因此基于模型的异常值采样不适合冷启动。
- 采样错误 ：使用未标记数据来确定异常值，容易意外采样到与我们想要的相反的内容，即看起来最不像我们试图用新标签适应的数据。为了解决这个问题，我们使用验证数据来进行排名。

由于第二、三、四个问题较难克服，因此在采样基于模型的异常值时，应同时考虑使用其他多样性采样方法，如聚类。

2. 基于聚类的采样

聚类可以从一开始就帮助我们选择多样化的数据。其策略很简单：不随机采样训练数据，而是将数据分成大量的簇，并从每个簇中均匀采样。

以新闻标题为例，如果随机采样数据进行人工审核，可能会花费大量时间手动标注关于体育比赛结果的相似标题。但如果对数据进行预聚类，这些标题可能会被归为一个簇，我们只需标注该簇中的少数示例，从而节省时间，并将时间用于标注其他簇中的数据，这些簇可能代表更罕见但重要的标题类型。

聚类是现实世界机器学习中最常用的多样性采样方法。我们通常使用无监督学习中的 k - 均值聚类算法，不过这里我们使用聚类结果来采样供人工

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。