无监督学习再掀风暴:聚类+Transformer刷爆SOTA!

在深度学习的演进历程中,Transformer凭借其全局自注意力机制,在自然语言处理领域构建了序列建模的新范式。而传统聚类算法作为无监督学习的核心方法,始终在特征空间解耦与数据分布建模中展现独特价值。二者结合的关键在于将Transformer的上下文感知能力与聚类的特征解耦特性进行有机整合。

【聚类-Transformer架构】通过引入动态原型学习机制,在特征提取阶段实现层次化语义建模。研究显示,通过自注意力机制与聚类约束的协同优化,模型可同时捕捉全局上下文依赖与局部特征簇的判别性分布,这种双重优势在提升表征质量的同时,有效平衡了计算效率与模型性能。随着跨模态学习需求的增长,聚类+Transformer在知识蒸馏、联邦学习等前沿领域展现出巨大潜力,应用前景则覆盖从工业质检到智慧医疗的多元场景。

本文整理了【12篇】最新的【聚类+Transformer】前沿论文与代码合集,同学们有需要可以自取~

一、Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping

在这里插入图片描述

1. 方法

扩散变换器(Diffusion Transformer, DiT)因其出色的生成能力而成为图像生成模型的首选。然而,随着模型规模的增加和多步采样的复杂性,部署和推理面临显著挑战。

本文提出了一个针对扩散变换器的后训练量化框架,旨在解决量化过程中遇到的困难。通过时间步感知的移位和缩放策略,平滑激活分布,减少量化误差。利用层次聚类方案将去噪时间步分为多个组,以优化量化参数的计算。该框架有效地解决了扩散变换器的量化挑战,显著提高了量化性能,适用于各种场景和分辨率。

在这里插入图片描述

2. 创新点

1)首次针对扩散变换器的量化优化 现有量化方法主要针对传统 CNN 或普通Transformer,而扩散变换器(DiT)的独特结构未被充分研究。本文首次提出针对DiT的后训练量化框架,填补了这一领域的空白。

2)时间步感知的移位和缩放策略 传统量化方法忽略不同时间步激活分布的动态变化,导致量化误差累积。本文提出动态调整激活值分布的策略,通过时间步感知的移位和缩放,平滑不同时间步的激活分布,显著减少量化误差。

3)层次时间步分组(HTG)框架 将去噪过程中的时间步通过层次聚类分组,每个组分配独立的量化参数。这种方法避免为每个时间步单独计算参数,在减少计算开销的同时保持量化精度。

二、Reduced Spatial Dependency for More General Video-level Deepfake Detection

在这里插入图片描述

1.方法

深伪技术(Deepfake)作为一种显著的AI生成内容,带来了重大的安全隐患。现有基于卷积神经网络(CNN)的方法在提取内在时间特征时,往往引入空间偏差,影响了模型的泛化能力。

本文提出了空间依赖性减少(SDR)的新方法,通过整合来自多个空间扰动聚类的时间一致性特征,减少模型对空间信息的依赖。设计了多个空间扰动分支(SPB),以构建空间扰动特征聚类,并利用互信息理论提出了任务相关特征集成(TRFI)模块,以捕捉来自这些聚类的时间特征。最终,将集成的特征输入到时间变换器中,以捕获长程依赖关系。

通过广泛的基准测试和消融研究,验证了所提方法的有效性和合理性,显示出在深伪视频检测中的优越性能。

2. 创新点

1)多空间扰动分支(SPB) 构建多个独立的空间扰动分支(如旋转、裁剪、噪声添加等),生成不同空间扰动特征聚类,模拟深伪生成过程中的空间篡改多样性。

2)任务相关特征集成(TRFI) TRFI 模块基于互信息理论,动态选择与检测任务最相关的特征子集,过滤冗余空间信息。通过最大化特征与任务标签的互信息,实现高效集成。

3)时间变换器的长程依赖建模 将集成的特征输入时间 Transformer(而非传统RNN或3D-CNN),利用自注意力机制捕获视频序列中的长程时间依赖关系。

在这里插入图片描述

三、Dictionary-based Framework for Interpretable and Consistent Object Parsing

在这里插入图片描述

1. 方法

本文提出了一种名为CoCal的创新模型,旨在提高对象解析的可解释性和一致性。该模型基于字典驱动的框架,强调部件与对象之间的内在关系。

CoCal利用聚类基础的掩模变换器,结合字典组件,形成与每个语义类别一一对应的固定关系;引入了组件级对比学习方法,增强字典组件的学习效果,并促进字典空间的良好结构化;通过逻辑约束,利用固有的语义层次信息,缓解跨层不一致性问题。在PartImageNet和Pascal-Part-108数据集上进行的广泛实验验证了CoCal的有效性,显著提高了部件和对象级别的性能。 在这里插入图片描述

2. 创新点

1)字典驱动的部件-对象关系建模 提出字典驱动框架CoCal,将语义部件与对象的关联关系显式编码为可学习的字典组件,解决了传统方法中部件与对象关联性建模不足的问题。

2)集群掩模变换器(Cluster-based Mask Transformer) 将Transformer与聚类机制结合,通过可学习聚类中心生成部件掩模,每个聚类中心对应字典中的一个语义类别。传统掩模生成依赖密集预测,而聚类机制将掩模生成过程解耦为“语义类别分配+掩模细化”,降低计算复杂度并提高一致性。

3)组件级对比学习 在字典空间中引入对比学习,迫使同类部件特征在字典中靠近,异类部件特征相互远离,从而优化字典结构的可分性。

4)逻辑约束缓解跨层不一致性 利用语义层次信息设计逻辑规则,约束部件与对象的从属关系。例如,通过结构损失函数惩罚“车轮”出现在非车辆类对象的预测中。

在这里插入图片描述

 需要论文合集和代码资料的

看我主页【AI学术工坊】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值