
自回归
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
自回归模型迎来全能选手!FlexVAR一模型通吃图像生成/修补,推理速度与质量自由调节
本文作者来自北京交通大学、悉尼科技大学、美团、佐治亚理工学院。FlexVAR是一种灵活的视觉自回归图像生成范式,它通过真实值(ground-truth)预测而非残差预测来实现自回归学习,从而能够在任何步骤独立生成合理的图像。在本文的方法中:(1) 一个可扩展的 VQVAE tokenizer 将输入图像量化为多尺度的 token 并重建图像。(2) 一个 FlexVAR transformer 通过尺度自回归建模进行训练,去除了残差预测。原创 2025-03-06 06:55:15 · 1295 阅读 · 0 评论 -
一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。原创 2025-03-05 22:36:52 · 671 阅读 · 0 评论 -
codebook从崩溃到高效利用!南大&清华&腾讯联合打造IBQ:自回归生成最强视觉分词器
现有的向量量化(VQ)方法在可扩展性方面存在困难,主要由于训练过程中仅部分更新的码本的不稳定性。随着利用率的降低,码本容易崩溃,因为未激活代码与视觉特征之间的分布差距逐渐扩大。原创 2025-01-05 23:21:10 · 679 阅读 · 0 评论 -
文生图击败所有扩散SOTA方案!智源研究院等提出NOVA:迈向统一的多任务大模型
现有的自回归视频生成模型(如图像或视频片段通过向量量化转换为离散值标记空间后进行逐标记预测)面临着高保真度和高压缩率难以同时实现的问题。向量量化的标记生成方法需要更多的标记来保证高质量,从而导致图像分辨率或视频序列较长时,计算成本显著增加。在自回归(AR)视觉生成领域,现有方法通常采用栅格扫描预测,导致生成效率较低,且对于大规模视频数据的处理能力有限。提出了一种新的自回归视频生成方法,称为NOVA,通过不使用向量量化的方式进行视频生成建模。原创 2024-12-24 08:41:25 · 1497 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2240 阅读 · 0 评论 -
首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!
解决的问题RAR(随机自回归建模)旨在提升图像生成任务的表现,同时保持与语言建模框架的完全兼容性。提出的方案RAR采用了一种简单的方法,通过标准的自回归训练过程并结合下一个 token 预测目标,将输入序列随机打乱到不同的分解顺序。在训练过程中,使用概率 r 将输入序列的排列顺序随机化,其中 r 从 1 开始并逐渐线性衰减至 0,以让模型学习所有分解顺序的期望似然值。应用的技术。原创 2024-11-11 00:33:01 · 939 阅读 · 0 评论 -
自回归视觉生成里程碑!比ControlNet 和 T2I-Adapter 快五倍!北大&腾讯提出CAR:灵活、高效且即插即用的可控框架
当前的视觉生成模型主要有两种技术路径:扩散模型和自回归模型。扩散模型在生成控制上表现出色,但自回归模型虽然具备强大的生成能力和可扩展性,控制性和灵活性方面仍然未被充分探索。原创 2024-10-13 14:40:18 · 963 阅读 · 0 评论