主动学习中的采样策略:聚类、代表性与真实世界多样性
1. 基于聚类的采样
在计算机视觉的高级聚类中,如果是为了多样性采样而进行聚类,那么聚类是否具有语义意义可能并不重要。从采样的角度来看,即使聚类本身在语义上不一致,也可能从各个聚类中获得图像的良好多样性。也就是说,可以忽略嵌入和主成分分析(PCA),直接对像素值进行聚类,这种方法可能同样有效。例如,余弦相似度会使 RGB = (50,100,100) 和 RGB = (100,200,200) 产生相同的向量,所以同一图像更亮、更饱和的版本可能是相同的,但这可能并不影响结果。目前还没有深入研究表明,在主动学习采样时,图像的像素级聚类是否总是比使用降维方法差,这是一个值得深入研究的话题。
2. 其他聚类算法
除了 k - 均值算法的各种变体,还可以尝试其他聚类算法和相关的无监督机器学习算法。这里介绍三种算法:
- 基于邻近度的聚类 :如 k - 近邻(KNN)和谱聚类。KNN 基于聚类中少量项目(k 个项目)之间的邻近度形成聚类,而不是基于整个聚类。k - 均值的优点和局限性在于所有聚类都有一个有意义的中心(均值本身),但对于没有明显中心的 L 形聚类或其他模式,KNN 可以捕捉到这些类型的聚类。谱聚类也是一种基于向量的聚类方法,它通过用新向量表示特征空间来发现更复杂的聚类形状。然而,没有明确证据表明基于邻近度的聚类在主动学习中始终优于 k - 均值聚类。
- 高斯混合模型(GMM) :GMM 允许一个项目同时成为多个聚类的成员。与 k - 均值相比,GMM 可以产生更符合数学原理的聚类,因为 k - 均值在两个聚类自然重叠的地方强
超级会员免费看
订阅专栏 解锁全文
429

被折叠的 条评论
为什么被折叠?



