自回归
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
速度质量我全都要!中科大&美团找到自回归生图“熵”密码,聪明采样提速15%且画质无损!
本文针对自回归(AR)图像生成中采样策略的不足,提出一种基于熵感知的动态采样方法。研究发现,图像token相比文本具有信息密度低、分布不均的特性,传统固定参数采样策略(如top-K/top-p)会导致结构混乱或细节缺失。通过分析预测token分布的熵与图像局部信息密度的关联,提出动态温度调整机制:对低熵区域(如纯色背景)增加随机性以丰富细节,对高熵区域(如复杂结构)采用严格采样以保持稳定性。原创 2025-10-15 22:42:48 · 613 阅读 · 0 评论 -
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!
Self-Forcing++突破长视频生成瓶颈 摘要:本文提出Self-Forcing++框架,解决了自回归模型在生成长视频时面临的时间性和监督不匹配问题。通过让学生在自身错误累积的长轨迹上进行校正,并利用教师模型的片段指导,该方法实现了三大突破。原创 2025-10-08 16:00:29 · 1585 阅读 · 0 评论 -
自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
NextStep-1:连续图像流匹配自回归架构的突破 本文提出NextStep-1,一种创新的自回归模型,通过轻量级流匹配头(157M参数)实现高质量patch-by-patch图像生成,摆脱传统扩散模型依赖。核心创新包括: 统一多模态框架:结合14B参数的自回归主干,同时处理离散文本和连续图像token,避免量化损失。 高维隐空间稳定技术:通过通道归一化与随机扰动tokenizer设计,支持16通道稳定训练,消除伪影。原创 2025-08-18 10:55:24 · 799 阅读 · 0 评论 -
ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”
本文提出DC-AR,一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer(32倍空间压缩率)和三阶段适应训练策略,解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制:先预测离散token确定图像结构,再用残差token优化细节。实验表明,该方法在MJHQ-30K上取得5.49 gFID,推理速度比扩散模型快1.5-7.9倍,延迟降低2.0-3.5倍,仅需12步即可生成高质量图像,同时支持跨分辨率泛化。原创 2025-07-24 23:41:25 · 1211 阅读 · 0 评论 -
首个自回归文生图风格化!StyleAR突破AI绘图新高度:单张图+提示词,完美复刻任意风格!
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。原创 2025-06-09 00:38:12 · 1191 阅读 · 0 评论 -
自回归模型迎来全能选手!FlexVAR一模型通吃图像生成/修补,推理速度与质量自由调节
本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式,它通过真实值(ground-truth)预测而非残差预测来实现自回归学习,从而能够在任何步骤独立生成合理的图像。在本文的方法中:(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练,去除了残差预测。原创 2025-03-06 06:55:15 · 1807 阅读 · 0 评论 -
一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。原创 2025-03-05 22:36:52 · 1459 阅读 · 0 评论 -
codebook从崩溃到高效利用!南大&清华&腾讯联合打造IBQ:自回归生成最强视觉分词器
现有的向量量化(VQ)方法在可扩展性方面存在困难,主要由于训练过程中仅部分更新的码本的不稳定性。随着利用率的降低,码本容易崩溃,因为未激活代码与视觉特征之间的分布差距逐渐扩大。原创 2025-01-05 23:21:10 · 1186 阅读 · 0 评论 -
文生图击败所有扩散SOTA方案!智源研究院等提出NOVA:迈向统一的多任务大模型
现有的自回归视频生成模型(如图像或视频片段通过向量量化转换为离散值标记空间后进行逐标记预测)面临着高保真度和高压缩率难以同时实现的问题。向量量化的标记生成方法需要更多的标记来保证高质量,从而导致图像分辨率或视频序列较长时,计算成本显著增加。在自回归(AR)视觉生成领域,现有方法通常采用栅格扫描预测,导致生成效率较低,且对于大规模视频数据的处理能力有限。提出了一种新的自回归视频生成方法,称为NOVA,通过不使用向量量化的方式进行视频生成建模。原创 2024-12-24 08:41:25 · 1764 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2648 阅读 · 0 评论 -
首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!
解决的问题RAR(随机自回归建模)旨在提升图像生成任务的表现,同时保持与语言建模框架的完全兼容性。提出的方案RAR采用了一种简单的方法,通过标准的自回归训练过程并结合下一个 token 预测目标,将输入序列随机打乱到不同的分解顺序。在训练过程中,使用概率 r 将输入序列的排列顺序随机化,其中 r 从 1 开始并逐渐线性衰减至 0,以让模型学习所有分解顺序的期望似然值。应用的技术。原创 2024-11-11 00:33:01 · 1207 阅读 · 0 评论 -
自回归视觉生成里程碑!比ControlNet 和 T2I-Adapter 快五倍!北大&腾讯提出CAR:灵活、高效且即插即用的可控框架
当前的视觉生成模型主要有两种技术路径:扩散模型和自回归模型。扩散模型在生成控制上表现出色,但自回归模型虽然具备强大的生成能力和可扩展性,控制性和灵活性方面仍然未被充分探索。原创 2024-10-13 14:40:18 · 1355 阅读 · 0 评论
分享