
一、论文主要内容总结
TiDAR 是一款序列级混合架构语言模型,核心目标是解决自回归(AR)模型吞吐量低、扩散语言模型(dLM)质量与并行性矛盾的问题。其通过“扩散 drafting(思考)+ 自回归 sampling(生成)”的双模式设计,在单模型单次前向传播中实现并行高效生成与高质量输出的平衡。
- 背景:AR模型生成质量高但逐token生成、吞吐量低;扩散模型支持并行生成但存在质量退化,现有方法难以兼顾三者。
- 核心设计:利用GPU“免费token槽”(加载权重和KV缓存后,额外token槽几乎不增加延迟),通过结构化因果-双向混合注意力掩码,让模型同时学习AR的联合分布和扩散的边际分布。
- 训练策略:扩散部分采用全掩码设计,简化损失平衡,提升训练数据利用率;支持精确KV缓存,推理无额外超参调优。
- 实验结果:1.5B模型保持AR级质量,吞吐量提升4.71倍;8B模型质量损失极小,吞吐量提升5.91倍,超越推测解码(如EAGLE-3)和主流扩散模型(如Dream、Llada)。
二、核心创新点
- 混合双模式架构:首次在单模型内实现扩散并行drafting与自回归高质量sampling,单次前向传播完成候选token生成与验证,消除模块间冗余开销。
- 结构化注意力掩码<

订阅专栏 解锁全文
645

被折叠的 条评论
为什么被折叠?



