ICLR2022系列解读之二:基于自适应邻居发现的人脸聚类的方法 Ada-NETS

Ada-NETS是一种针对人脸识别聚类的新型方法,旨在解决GCN-based方法中的噪声边问题。通过将节点映射到结构空间和自适应邻居发现模块,Ada-NETS构建更干净、丰富的图,从而提高聚类效果。实验表明,Ada-NETS在多个数据集上优于现有SOTA方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文解读我们ICLR2022上发表的论文《Ada-NETS:Face Clustering via Adaptive Neighbour Discovery in the Structure Space》。本文介绍了在结构空间中基于自适应邻居发现的人脸聚类的方法,该工作已被 ICLR2022 接收。

论文地址:Ada-NETS: Face Clustering via Adaptive Neighbour Discovery in the Structure Space

开源代码:https://github.com/Thomas-wyh/Ada-NETS

一、背景

互联网上存在大量以人脸为主的图片,有需求将这些图片按照 ID 关联到一起,目的是为了方便理解和管理这些人脸图片。在解决这个需求过程中,抽象出了一个基本的任务:就是人脸聚类。

谈到人脸聚类,首先看一下聚类的含义。给定一个特征集合 V={v1,v2,⋯,vi,⋯,vN|vi∈RD} ,聚类任务给每一个特征向量 vi 赋予一个分组标签。需要特别说明的是:这里任务的输入是已经抽取好的特征向量。除了满足以上特征,人脸聚类任务往往具有数据量大,精度要求高等特点。

当前处理人脸聚类的方法大致分为两种:传统聚类方法和 GCN-based 的聚类方法。传统聚类方法大都对数据的分布有假设要求(比如:k-means 要求数据分布是凸的等),而现实世界的数据分布都是复杂的,往往不能完全满足这些假设,所以这些方法很可能得到 suboptimal 的结果;而且人脸聚类一般都是大规模聚类,迭代式的更新的聚类方法,在时效上也难以满足要求。近几年来GCN-based 人脸聚类逐渐兴起,并且每年都在取得 SOTA 的效果。GCN-based 的方法大致过程是这样的:首先给每个节点寻找 topK 近邻,认为存在topK近邻关系的节点之间存在一条边,通过这样的方法来构建出 graph,然后通过图卷积方法对节点特征进行增强,在 head 的部分使用点分类或者边分类的方法判断节点间是否有边连接,然后通过传递归并的方法将可以相互达到节点分为一组,从而得到最终的聚类结果。本文介绍的方法归属于第二类。

1. 问题与难点

1.1 问题

当前 GCN-based 的人脸聚类方法中都面临着一个很大的问题,就是当前使用的 graph 上充斥着噪声边。所谓噪声边就是一条边连接两个不同类别的节点。如下图(b)所示:灰色的边是正确的边,它连接两个相同的节点,而红色的边连接两个不同类别的节点,属于噪声边。当前主流方法在构图上,通过在节点的特征空间中进行搜索来选择topK 近邻,给有topK近邻关系的节点间构造一条边。但是在现实世界中,特征表示并不总是可靠,使用特征搜索得到的topK近邻当中存在着各种False Positive,即 一个节点与probe 节点并非同一类但是却属于probe节点的topK近邻。那么在基于这个 k NN构造图的时候,噪声边就会随之而来。噪声边的问题是普遍存在的,它的占比不容忽视:之前的方法所使用的图中,存在38.23%的噪声边。因此这些方法不能直接使用GCN的结果,还要借助density-based 连接或亲密度判定等后处理的方法。如下图(b)所示,v1 节点连接着5条边,其中3条是红色的噪声边2条是灰色的正确边。试想在GCN的信息传递过程中, v1 节点的特征就会被非同类节点的特征所污染,从而噪声最后特征表达效果的下降。因此,噪声边的影响也是不容忽视的。但是,当前在人脸聚类领域的研究中,还没有专门处理噪声边的研究。

Abstract—Clustering face images according to their latent identity has two important applications: (i) grouping a collection of face images when no external labels are associated with images, and (ii) indexing for efficient large scale face retrieval. The clustering problem is composed of two key parts: representation and similarity metric for face images, and choice of the partition algorithm. We first propose a representation based on ResNet, which has been shown to perform very well in image classification problems. Given this representation, we design a clustering algorithm, Conditional Pairwise Clustering (ConPaC), which directly estimates the adjacency matrix only based on the similarities between face images. This allows a dynamic selection of number of clusters and retains pairwise similarities between faces. ConPaC formulates the clustering problem as a Conditional Random Field (CRF) model and uses Loopy Belief Propagation to find an approximate solution for maximizing the posterior probability of the adjacency matrix. Experimental results on two benchmark face datasets (LFW and IJB-B) show that ConPaC outperforms well known clustering algorithms such as k-means, spectral clustering and approximate Rank-order. Additionally, our algorithm can naturally incorporate pairwise constraints to work in a semi-supervised way that leads to improved clustering performance. We also propose an k-NN variant of ConPaC, which has a linear time complexity given a k-NN graph, suitable for large datasets. Index Terms—face clustering, face representation, Conditional Random Fields, pairwise constraints, semi-supervised clustering.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI Earth地球科学云平台

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值