在深度学习的演进历程中,Transformer凭借其全局自注意力机制,在自然语言处理领域构建了序列建模的新范式。而传统聚类算法作为无监督学习的核心方法,始终在特征空间解耦与数据分布建模中展现独特价值。二者结合的关键在于将Transformer的上下文感知能力与聚类的特征解耦特性进行有机整合。
【聚类-Transformer架构】通过引入动态原型学习机制,在特征提取阶段实现层次化语义建模。研究显示,通过自注意力机制与聚类约束的协同优化,模型可同时捕捉全局上下文依赖与局部特征簇的判别性分布,这种双重优势在提升表征质量的同时,有效平衡了计算效率与模型性能。随着跨模态学习需求的增长,聚类+Transformer在知识蒸馏、联邦学习等前沿领域展现出巨大潜力,应用前景则覆盖从工业质检到智慧医疗的多元场景。
本文整理了【12篇】最新的【聚类+Transformer】前沿论文与代码合集,同学们有需要可以自取~
一、Post-Training Quantization for Diffusion Transformer via Hierarchical Timestep Grouping
1. 方法
扩散变换器(Diffusion Transformer, DiT)因其出色的生成能力而成为图像生成模型的首选。然而,随着模型规模的增加和多步采样的复杂性,部署和推理面临显著挑战。
本文提出了一个针对扩散变换器的后训练量化框架,旨在解决量化过程中遇到的困难。通过时间步感知的移位和缩放策略,平滑激活分布,减少量化误差。利用层次聚类方案将去噪时间步分为多个组,以优化量化参数的计算。该框架有效地解决了扩散变换器的量化挑战,显著提高了量化性能,适用于各种场景和分辨率。
2. 创新点
1)首次针对扩散变换器的量化优化 现有量化方法主要针对传统 CNN 或普通Transformer,而扩散变换器(DiT)的独特结构未被充分研究。本文首次提出针对DiT的后训练量化框架,填补了这一领域的空白。
2)时间步感知的移位和缩放策略 传统量化方法忽略不同时间步激活分布的动态变化,导致量化误差累积。本文提出动态调整激活值分布的策略,通过时间步感知的移位和缩放,平滑不同时间步的激活分布,显著减少量化误差。
3)层次时间步分组(HTG)框架 将去噪过程中的时间步通过层次聚类分组,每个组分配独立的量化参数。这种方法避免为每个时间步单独计算参数,在减少计算开销的同时保持量化精度。
二、Reduced Spatial Dependency for More General Video-level Deepfake Detection
1.方法
深伪技术(Deepfake)作为一种显著的AI生成内容,带来了重大的安全隐患。现有基于卷积神经网络(CNN)的方法在提取内在时间特征时,往往引入空间偏差,影响了模型的泛化能力。
本文提出了空间依赖性减少(SDR)的新方法,通过整合来自多个空间扰动聚类的时间一致性特征,减少模型对空间信息的依赖。设计了多个空间扰动分支(SPB),以构建空间扰动特征聚类,并利用互信息理论提出了任务相关特征集成(TRFI)模块,以捕捉来自这些聚类的时间特征。最终,将集成的特征输入到时间变换器中,以捕获长程依赖关系。
通过广泛的基准测试和消融研究,验证了所提方法的有效性和合理性,显示出在深伪视频检测中的优越性能。
2. 创新点
1)多空间扰动分支(SPB) 构建多个独立的空间扰动分支(如旋转、裁剪、噪声添加等),生成不同空间扰动特征聚类,模拟深伪生成过程中的空间篡改多样性。
2)任务相关特征集成(TRFI) TRFI 模块基于互信息理论,动态选择与检测任务最相关的特征子集,过滤冗余空间信息。通过最大化特征与任务标签的互信息,实现高效集成。
3)时间变换器的长程依赖建模 将集成的特征输入时间 Transformer(而非传统RNN或3D-CNN),利用自注意力机制捕获视频序列中的长程时间依赖关系。
三、Dictionary-based Framework for Interpretable and Consistent Object Parsing
1. 方法
本文提出了一种名为CoCal的创新模型,旨在提高对象解析的可解释性和一致性。该模型基于字典驱动的框架,强调部件与对象之间的内在关系。
CoCal利用聚类基础的掩模变换器,结合字典组件,形成与每个语义类别一一对应的固定关系;引入了组件级对比学习方法,增强字典组件的学习效果,并促进字典空间的良好结构化;通过逻辑约束,利用固有的语义层次信息,缓解跨层不一致性问题。在PartImageNet和Pascal-Part-108数据集上进行的广泛实验验证了CoCal的有效性,显著提高了部件和对象级别的性能。
2. 创新点
1)字典驱动的部件-对象关系建模 提出字典驱动框架CoCal,将语义部件与对象的关联关系显式编码为可学习的字典组件,解决了传统方法中部件与对象关联性建模不足的问题。
2)集群掩模变换器(Cluster-based Mask Transformer) 将Transformer与聚类机制结合,通过可学习聚类中心生成部件掩模,每个聚类中心对应字典中的一个语义类别。传统掩模生成依赖密集预测,而聚类机制将掩模生成过程解耦为“语义类别分配+掩模细化”,降低计算复杂度并提高一致性。
3)组件级对比学习 在字典空间中引入对比学习,迫使同类部件特征在字典中靠近,异类部件特征相互远离,从而优化字典结构的可分性。
4)逻辑约束缓解跨层不一致性 利用语义层次信息设计逻辑规则,约束部件与对象的从属关系。例如,通过结构损失函数惩罚“车轮”出现在非车辆类对象的预测中。
需要论文合集和代码资料的
看我主页【AI学术工坊】