Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization

https://arxiv.org/abs/2503.11056

Flow to the Mode: Mode-Seeking Diffusion Autoencoders for State-of-the-Art Image Tokenization

摘要

本文提出FlowMo(Flow to the Mode),一种基于Transformer的扩散自编码器,在无需卷积、对抗损失、空间对齐二维潜在码或从其他分词器蒸馏的情况下,实现了多压缩率下的图像分词任务新SOTA性能。核心创新点包括:

  1. 模式匹配预训练:通过扩散损失端到端训练系统
  2. 模式搜索后训练:选择性丢弃与原始图像感知距离较远的重建模式
  3. 一维潜在码Transformer架构:突破传统CNN架构限制

引言

生成模型发展现状

近年来,扩散模型(Diffusion Models)和离散自回归模型(Discrete Autoregressive Models)在图像/视频生成领域取得显著进展。现有视觉生成系统普遍采用两阶段范式:

  1. 分词器(Tokenizer):将像素数据压缩到低维潜在空间
  2. 生成模型:在压缩后的潜在空间进行训练

图像分词技术演进

  • 传统方案:以VQGAN为代表,采用CNN架构和二维空间对齐潜在码
  • 改进尝试:TiTok引入Transformer架构但依赖CNN预训练,ViT-VQGAN使用Transformer编解码器
  • 现存问题:对抗损失不稳定、硬件效率受限、依赖预训练分词器蒸馏

FlowMo核心思想

通过两个关键洞察实现突破:

  1. 模式选择优先性:感知相似的模式比所有模式匹配更重要
  2. 两阶段训练策略
    • 预训练阶段:端到端扩散损失训练
    • 后训练阶段:选择性模式过滤

相关工作

图像分词技术

  • 主流架构:VQGAN及其变体主导离散图像分词领域
  • 近期探索:TiTok(Transformer+一维码)、ViT-VQGAN(Transformer编解码)

扩散自编码器

  • 技术起源:首次提出于[46],后续研究聚焦表示学习和感知压缩
  • 关键技术:直校正流(Rectified Flow)、有限标量量化(FSQ)

并行工作

  • DiTo:连续图像分词扩散自编码器
  • FlexTok:基于传统VAE的扩散分词器

方法

系统架构

  1. 编码器(Encoder):基于MMDiT的Transformer架构,将图像映射到潜在码
  2. 解码器(Decoder):条件扩散模型,学习从噪声到数据的速度场v
  3. 量化模块:采用无查找表量化(LFQ)生成二值潜在码

训练流程

阶段1A:模式匹配预训练
  • 目标:最大化潜在码的信息量,匹配真实分布
  • 损失函数
    • 扩散匹配损失(Rectified Flow Loss)
    • 感知距离监督(Lperc)
    • 潜在码熵损失(Lent)和承诺损失(Lcommit)
阶段1B:模式搜索后训练
  • 目标:过滤非感知相似重建模式
  • 关键技术
    • 通过采样ODE积分计算n步样本损失(Lsample)
    • 使用ResNet作为感知网络
    • 调整采样步长分布(Shift参数ρ)
采样过程
  • 概率流ODE求解:通过固定步长积分生成图像
  • 加速策略:采用非线性步长分布(ρ=4)

生成模型训练

  • 使用MaskGiT在第二阶段训练生成模型
  • 关键设置:隐藏层尺寸1024,层数28,总参数量397M

分析

模式分布可视化

局限性

  • 推理速度:需多次前向计算(本文采用n=25步)
  • 计算资源:大规模训练需8xH100节点支持

结论

FlowMo通过创新的扩散自编码器架构和两阶段训练策略,在ImageNet-1K图像分词任务上取得SOTA性能。其核心贡献在于:

  1. 首次实现无CNN/对抗损失的分词器
  2. 提出模式导向的训练范式
  3. 验证Transformer在低维潜在空间建模的潜力

文章笔记

1 研究目的

  • 解决图像分词难题
    突破传统分词器依赖CNN架构、对抗损失不稳定、需预训练蒸馏等限制
  • 提升感知重建质量
    在ImageNet-1K等高难度基准测试中实现SOTA性能指标(rFID/PSNR/LPIPS)

2 研究方法

  • 双阶段训练框架
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)内容概要:本文介绍了一种基于神经网络的数据驱动迭代学习控制(ILC)算法,用于解决具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车路径跟踪问题,并提供了完整的Matlab代码实现。该方法无需精确系统模型,通过数据驱动方式结合神经网络逼近系统动态,利用迭代学习机制不断提升控制性能,从而实现高精度的路径跟踪控制。文档还列举了大量相关科研方向和技术应用案例,涵盖智能优化算法、机器学习、路径规划、电力系统等多个领域,展示了该技术在科研仿真中的广泛应用前景。; 适合人群:具备一定自动控制理论基础和Matlab编程能力的研究生、科研人员及从事无人车控制、智能算法开发的工程技术人员。; 使用场景及目标:①应用于无人车在重复任务下的高精度路径跟踪控制;②为缺乏精确数学模型的非线性系统提供有效的控制策略设计思路;③作为科研复现与算法验证的学习资源,推动数据驱动控制方法的研究与应用。; 阅读建议:建议读者结合Matlab代码深入理解算法实现细节,重点关注神经网络与ILC的结合机制,并尝试在不同仿真环境中进行参数调优与性能对比,以掌握数据驱动控制的核心思想与工程应用技巧。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值