A Rank-Order Distance based Clustering Algorithm for Face Tagging

本文介绍了一种基于排序距离的人脸聚类算法,该算法利用人脸的邻居信息来度量人脸间的相似度,解决了光照、姿态、表情变化带来的聚类难题。通过Rank-Order距离,即使在复杂场景下也能有效识别同一人的不同子集群。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【论文阅读】A Rank-Order Distance based Clustering Algorithm for Face Tagging

2018-04-04

一篇关于人脸聚类的文章

原文链接:2011_CVPR_A Rank-Order Distance based Clustering Algorithm for Face Tagging

Rank-Order distance, which measures the dissimilarity between two faces using their neighboring information in the dataset.

The Rank-Order distance is motivated by an observation that faces of the same person usually share their top neigh- bors.

 

 

由于人脸的复杂场景,比如光照、姿态、表情等因素,绝对距离的度量方式可能会造成相同人的不同照片相似度很低,而不同人的照片反而相似度很高,所以单纯的L1或L2距离已不再适用。

由于大部分家庭照片都拍摄于不同的环境,对于人脸聚类会有一些要求和挑战:

1、相册中的人脸通常会在高维空间形成几个脸部簇,并具有不同的密度,大小和形状。这种非均匀分布使得绝对距离(例如,两个人脸识别特征之间的L1或L2距离)容易失败。如下图所示,男孩的群集比女孩的群集更稀疏。如果我们在这个例子中使用绝对距离,那么这个在中间男孩的脸更接近女孩群。

2、人脸检测通常会返回一些背景中不感兴趣或不喜欢的人脸。通常,我们不想标记这些面孔。聚类算法应该能够处理这些噪声和异常值。

3、算法的运行时间应该满足快速用户交互的要求。

由于复杂的人脸分布,同一人的所有人脸通常由几个子集群组成。由于这些子聚类相对比较紧密,因此可以通过简单的阈值法以Rank-Order距离来强健地识别它们。然而,由于光照,姿态,表达等变化的干扰,子簇之间的连接通常较弱且稀疏。为了解决这个问题,我们提出了一种基于排序距离的聚类算法,以迭代方式合并子簇凝聚的方式。聚类算法结合了聚类级别的秩距离和聚类级别的距离。在每个迭代步骤中,合并任意两个具有较小Rank-Order距离和较小归一化距离的人脸聚类。以这种方式,来自同一个人的不同子集群被有效连接。

Rank-order distance来度量两个人脸的相似度。这个距离是基于一个有趣的观察:同一个人的两张脸有许多共享的top邻居,但是来自不同人的人脸的邻居通常差异很大。

Rank-Order Distance

1

算法流程

img

该算法的时间复杂度是O(N2)O(N2),其中DRDR和DNDN对应的两个阈值是固定参数,而K近邻是可以选择的参数,该参数大小直接影响最后聚类的簇数目。

参考资料:https://pminmin.github.io/2016/12/13/rank-order/

Abstract—Clustering face images according to their latent identity has two important applications: (i) grouping a collection of face images when no external labels are associated with images, and (ii) indexing for efficient large scale face retrieval. The clustering problem is composed of two key parts: representation and similarity metric for face images, and choice of the partition algorithm. We first propose a representation based on ResNet, which has been shown to perform very well in image classification problems. Given this representation, we design a clustering algorithm, Conditional Pairwise Clustering (ConPaC), which directly estimates the adjacency matrix only based on the similarities between face images. This allows a dynamic selection of number of clusters and retains pairwise similarities between faces. ConPaC formulates the clustering problem as a Conditional Random Field (CRF) model and uses Loopy Belief Propagation to find an approximate solution for maximizing the posterior probability of the adjacency matrix. Experimental results on two benchmark face datasets (LFW and IJB-B) show that ConPaC outperforms well known clustering algorithms such as k-means, spectral clustering and approximate Rank-order. Additionally, our algorithm can naturally incorporate pairwise constraints to work in a semi-supervised way that leads to improved clustering performance. We also propose an k-NN variant of ConPaC, which has a linear time complexity given a k-NN graph, suitable for large datasets. Index Terms—face clustering, face representation, Conditional Random Fields, pairwise constraints, semi-supervised clustering.
### 基于决策变量聚类的进化算法在大规模多目标优化中的应用 #### 背景介绍 随着实际工程问题复杂度的增加,大规模多目标优化问题(Large-Scale Multi-Objective Optimization Problems, LSMOPs)逐渐成为研究热点。这类问题的特点在于其具有高维决策变量以及多个相互冲突的目标函数。传统多目标进化算法(Multi-Objective Evolutionary Algorithms, MOEAs)通常难以有效处理此类问题,因为它们无法高效管理高维度带来的计算负担和解空间复杂性。 为了应对这一挑战,一种基于决策变量聚类的方法被提出并应用于大规模多目标优化中[^3]。这种策略的核心思想是对决策变量进行分组或聚类,从而降低问题的维度,并提高求解效率。 --- #### 决策变量聚类方法的工作原理 X. Zhang等人提出的基于决策变量聚类的进化算法(Decision Variable Clustering-Based Evolutionary Algorithm, DVEA),通过分析不同决策变量之间的关联性和贡献程度来实现降维的目的。具体而言: 1. **决策变量的相关性评估** 首先利用统计学工具(如偏导数矩阵或协方差矩阵)衡量各决策变量对目标函数的影响强度及其相关性。这些信息用于构建一个相似性度量矩阵,进而指导后续的聚类操作。 2. **聚类过程** 使用经典的聚类技术(例如K-means或其他启发式方法),将原始的高维决策变量划分为若干低维子集。每个子集中包含一组高度相关的决策变量,而不同子集间的耦合关系较弱。这样做的目的是使得每组子集能够独立优化而不显著影响其他部分的结果。 3. **分解与协同演化机制** 将整个优化问题拆解成多个较小规模的子问题,分别针对各个子集执行局部搜索。与此同时引入全局协作机制,在迭代过程中不断交换信息以保持整体一致性。这种方式不仅简化了单次运算所需资源消耗,还增强了探索能力,避免陷入局部最优陷阱[^1]。 4. **多样性维护策略** 结合拥挤距离计算方法筛选优质候选方案加入下一代种群之中。特别值得注意的是,当面对复杂的 Pareto前沿形状时,这种方法表现出更强适应力,因为它能够在维持良好分布特性的前提下兼顾收敛速度[^4]。 --- #### 实验验证与性能表现 实验结果显示,DVEA相比其他主流MOEA/D变体以及其他专门设计用来解决LSMOPs的技术展现出明显优势。尤其是在涉及数百甚至上千个决策变量的情况下,它依然能稳定获取高质量近似Pareto前端解决方案集合。 此外,文献提到另一种改进版本——CCLSM (Cooperative Co-evolutionary Algorithm),进一步强化了模块化设计理念并通过动态调整权重参数提升灵活性。同样地,“Competitive Swarm Optimizer”也提供了类似的竞争合作框架作为补充选项之一[^2]。 --- #### 总结 综上所述,基于决策变量聚类的大规模多目标优化进化算法是一种非常有效的手段,适合处理那些拥有众多不确定因素且结构较为松散的实际应用场景。凭借出色的鲁棒性和扩展潜力,未来有望继续推动该领域向前发展。 ```python import numpy as np from sklearn.cluster import KMeans def decision_variable_clustering(decision_variables, num_clusters): """ Perform clustering on the given set of decision variables. Parameters: decision_variables (numpy.ndarray): Array containing all decision variables. num_clusters (int): Number of clusters to form. Returns: labels (list): Cluster label assigned to each decision variable. """ kmeans = KMeans(n_clusters=num_clusters, random_state=0).fit(decision_variables) return kmeans.labels_ # Example usage variables = np.random.rand(100, 5) # Simulated dataset with 100 samples and 5 features clusters = decision_variable_clustering(variables, 5) print(clusters) ``` ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值