TiDAR: Think in Diffusion, Talk in Autoregression

在这里插入图片描述

一、论文主要内容总结

TiDAR 是一款序列级混合架构语言模型,核心目标是解决自回归(AR)模型吞吐量低、扩散语言模型(dLM)质量与并行性矛盾的问题。其通过“扩散 drafting(思考)+ 自回归 sampling(生成)”的双模式设计,在单模型单次前向传播中实现并行高效生成与高质量输出的平衡。

  • 背景:AR模型生成质量高但逐token生成、吞吐量低;扩散模型支持并行生成但存在质量退化,现有方法难以兼顾三者。
  • 核心设计:利用GPU“免费token槽”(加载权重和KV缓存后,额外token槽几乎不增加延迟),通过结构化因果-双向混合注意力掩码,让模型同时学习AR的联合分布和扩散的边际分布。
  • 训练策略:扩散部分采用全掩码设计,简化损失平衡,提升训练数据利用率;支持精确KV缓存,推理无额外超参调优。
  • 实验结果:1.5B模型保持AR级质量,吞吐量提升4.71倍;8B模型质量损失极小,吞吐量提升5.91倍,超越推测解码(如EAGLE-3)和主流扩散模型(如Dream、Llada)。

二、核心创新点

  1. 混合双模式架构:首次在单模型内实现扩散并行drafting与自回归高质量sampling,单次前向传播完成候选token生成与验证,消除模块间冗余开销。
  2. 结构化注意力掩码<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值