无监督学习再掀风暴：聚类+Transformer刷爆SOTA！

原创已于 2025-03-14 10:49:47 修改 · 2.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-03-14 10:49:12 首次发布

在深度学习的演进历程中，Transformer凭借其全局自注意力机制，在自然语言处理领域构建了序列建模的新范式。而传统聚类算法作为无监督学习的核心方法，始终在特征空间解耦与数据分布建模中展现独特价值。二者结合的关键在于将Transformer的上下文感知能力与聚类的特征解耦特性进行有机整合。

【聚类-Transformer架构】通过引入动态原型学习机制，在特征提取阶段实现层次化语义建模。研究显示，通过自注意力机制与聚类约束的协同优化，模型可同时捕捉全局上下文依赖与局部特征簇的判别性分布，这种双重优势在提升表征质量的同时，有效平衡了计算效率与模型性能。随着跨模态学习需求的增长，聚类+Transformer在知识蒸馏、联邦学习等前沿领域展现出巨大潜力，应用前景则覆盖从工业质检到智慧医疗的多元场景。

本文整理了【12篇】最新的【聚类+Transformer】前沿论文与代码合集，同学们有需要可以自取~

一、Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping

在这里插入图片描述

1. 方法

扩散变换器（Diffusion Transformer, DiT）因其出色的生成能力而成为图像生成模型的首选。然而，随着模型规模的增加和多步采样的复杂性，部署和推理面临显著挑战。

本文提出了一个针对扩散变换器的后训练量化框架，旨在解决量化过程中遇到的困难。通过时间步感知的移位和缩放策略，平滑激活分布，减少量化误差。利用层次聚类方案将去噪时间步分为多个组，以优化量化参数的计算。该框架有效地解决了扩散变换器的量化挑战，显著提高了量化性能，适用于各种场景和分辨率。

在这里插入图片描述

2. 创新点

1）首次针对扩散变换器的量化优化现有量化方法主要针对传统 CNN 或普通Transformer，而扩散变换器（DiT）的独特结构未被充分研究。本文首次提出针对DiT的后训练量化框架，填补了这一领域的空白。

2）时间步感知的移位和缩放策略传统量化方法忽略不同时间步激活分布的动态变化，导致量化误差累积。本文提出动态调整激活值分布的策略，通过时间步感知的移位和缩放，平滑不同时间步的激活分布，显著减少量化误差。

3）层次时间步分组（HTG）框架将去噪过程中的时间步通过层次聚类分组，每个组分配独立的量化参数。这种方法避免为每个时间步单独计算参数，在减少计算开销的同时保持量化精度。

二、Reduced Spatial Dependency for More General Video-level Deepfake Detection

在这里插入图片描述

1.方法

深伪技术（Deepfake）作为一种显著的AI生成内容，带来了重大的安全隐患。现有基于卷积神经网络（CNN）的方法在提取内在时间特征时，往往引入空间偏差，影响了模型的泛化能力。

本文提出了空间依赖性减少（SDR）的新方法，通过整合来自多个空间扰动聚类的时间一致性特征，减少模型对空间信息的依赖。设计了多个空间扰动分支（SPB），以构建空间扰动特征聚类，并利用互信息理论提出了任务相关特征集成（TRFI）模块，以捕捉来自这些聚类的时间特征。最终，将集成的特征输入到时间变换器中，以捕获长程依赖关系。

通过广泛的基准测试和消融研究，验证了所提方法的有效性和合理性，显示出在深伪视频检测中的优越性能。

2. 创新点

1）多空间扰动分支（SPB）构建多个独立的空间扰动分支（如旋转、裁剪、噪声添加等），生成不同空间扰动特征聚类，模拟深伪生成过程中的空间篡改多样性。

2）任务相关特征集成（TRFI） TRFI 模块基于互信息理论，动态选择与检测任务最相关的特征子集，过滤冗余空间信息。通过最大化特征与任务标签的互信息，实现高效集成。

3）时间变换器的长程依赖建模将集成的特征输入时间 Transformer（而非传统RNN或3D-CNN），利用自注意力机制捕获视频序列中的长程时间依赖关系。

在这里插入图片描述

三、Dictionary-based Framework for Interpretable and Consistent Object Parsing

在这里插入图片描述

1. 方法

本文提出了一种名为CoCal的创新模型，旨在提高对象解析的可解释性和一致性。该模型基于字典驱动的框架，强调部件与对象之间的内在关系。

CoCal利用聚类基础的掩模变换器，结合字典组件，形成与每个语义类别一一对应的固定关系；引入了组件级对比学习方法，增强字典组件的学习效果，并促进字典空间的良好结构化；通过逻辑约束，利用固有的语义层次信息，缓解跨层不一致性问题。在PartImageNet和Pascal-Part-108数据集上进行的广泛实验验证了CoCal的有效性，显著提高了部件和对象级别的性能。在这里插入图片描述

2. 创新点

1）字典驱动的部件-对象关系建模提出字典驱动框架CoCal，将语义部件与对象的关联关系显式编码为可学习的字典组件，解决了传统方法中部件与对象关联性建模不足的问题。

2）集群掩模变换器（Cluster-based Mask Transformer）将Transformer与聚类机制结合，通过可学习聚类中心生成部件掩模，每个聚类中心对应字典中的一个语义类别。传统掩模生成依赖密集预测，而聚类机制将掩模生成过程解耦为“语义类别分配+掩模细化”，降低计算复杂度并提高一致性。

3）组件级对比学习在字典空间中引入对比学习，迫使同类部件特征在字典中靠近，异类部件特征相互远离，从而优化字典结构的可分性。

4）逻辑约束缓解跨层不一致性利用语义层次信息设计逻辑规则，约束部件与对象的从属关系。例如，通过结构损失函数惩罚“车轮”出现在非车辆类对象的预测中。

在这里插入图片描述