自回归生成模型
文章平均质量分 93
自回归生成模型的论文速读
这张生成的图像能检测吗
方向:机器视觉,主攻目标检测、GAN图像生成、低照度图像处理、模型三维结构设计、单片机开发板控制。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
StreamingT2V:从文本生成一致、动态和可扩展的长视频
StreamingT2V提出了一种突破性的文本到长视频生成方法,通过条件注意力模块(CAM)实现平滑片段过渡,外观保持模块(APM)维持长期场景一致性,以及随机混合策略消除增强过程中的拼接痕迹。该方法能够生成长达2分钟的高质量视频,在运动丰富性和一致性方面显著优于现有技术,定量指标MAWE降低28%。这种模块化设计结合了短/长期记忆机制,为AI视频创作开辟了新可能,可应用于广告、教育、娱乐等多个领域。原创 2025-11-10 19:46:19 · 1303 阅读 · 0 评论 -
(论文速读)CTRL-O:语言可控的以对象为中心的视觉表征学习
CVPR 2025论文《CTRL-O》提出了一种语言可控的以对象为中心的视觉表示学习方法。针对现有对象中心模型缺乏用户可控性的问题,该研究通过三大创新实现突破:(1)查询驱动的slot初始化;(2)解码器条件化;(3)关键的控制对比损失。实验表明,CTRL-O在COCO数据集上的FG-ARI指标达47.5%,在RefCOCO测试集上实现33.13%的mIoU,显著优于基线方法。该方法可应用于实例级图像生成和视觉问答等下游任务。原创 2025-11-04 14:55:39 · 834 阅读 · 0 评论 -
(论文速读)EasyCraft: 一个强大的和有效的自动头像制作框架
《EasyCraft:游戏角色自动生成框架的创新突破》 摘要:本文介绍了一种创新的自动角色制作框架EasyCraft,解决了现有方法在跨游戏引擎通用性和输入多样性方面的局限。该框架通过独特的双阶段训练策略,首先利用510万张多风格面部图像进行自监督预训练建立统一特征空间,再针对特定游戏引擎训练参数生成模块。实验证明,EasyCraft在照片和文本两种输入方式下均表现优异,在FID指标上较现有方法提升48.5%,推理速度达26毫秒。用户研究显示87%的参与者更偏好EasyCraft生成的结果。原创 2025-11-02 15:28:30 · 953 阅读 · 0 评论 -
(论文速读)OpenHumanVid:用于增强以人为中心的视频生成的大规模高质量数据集
OpenHumanVid是一个大规模、高质量的以人为中心的视频数据集,旨在解决现有视频生成模型在人物表现上的不足。该数据集包含13.2百万高质量视频片段,配备多模态标注,如详细文本描述、骨骼序列和语音音频,并强调文本与人物外观、动作及表情的精准对齐。通过实验验证,基于此数据集训练的模型显著提升了生成视频的人物一致性和动作自然度,同时保持通用视频生成性能。研究证明,数据规模、质量和多模态对齐对提升人物视频生成效果至关重要。数据集和代码已开源,推动相关技术发展。原创 2025-10-28 22:36:46 · 1261 阅读 · 0 评论 -
(论文速读)文本到图像生成的判别探测和调优
本文提出了一种通过增强判别能力来提升文本-图像生成对齐性的新方法DPT。研究发现生成模型的判别能力与其文本-图像对齐能力密切相关,因此设计了一个判别适配器来评估和提升模型的判别性能,并利用判别微调改善生成质量。该方法在推理时引入自校正机制,通过判别梯度动态调整生成结果。实验表明,DPT在三个基准数据集上显著提升了生成性能,同时在判别任务上达到SOTA水平。这种理解促进创造的新范式为提升多模态生成模型的对齐性提供了有效途径。原创 2025-10-20 13:51:18 · 1067 阅读 · 0 评论 -
(论文速读)BlobGEN:基于密集Blob表示的组合式文本图像生成
BlobGEN,一种基于密集Blob表示的文本到图像合成生成方法。通过将场景分解为可解释的视觉原语(倾斜椭圆blob),结合创新的掩蔽交叉注意力模块,实现了细粒度控制与高质量生成。实验表明,BlobGEN在MS-COCO上取得8.61的FID分数,布局控制精度提升23%。结合大语言模型后,在空间和数值推理任务中表现优异,为可控图像生成提供了新思路。原创 2025-09-25 09:52:37 · 689 阅读 · 0 评论 -
(论文速读)StarGen:视频扩散模型的时空自回归框架
StarGen提出了一种基于视频扩散模型的时空自回归框架,用于长距离、高一致性的场景生成。该框架创新性地采用时空双重条件化机制,既考虑时间相邻性又保持空间一致性,通过预训练模型实现稀疏视图插值、持续视图生成等多种任务。实验表明StarGen在保真度、姿态精度和可扩展性上优于现有方法,为VR/AR、影视制作等应用提供了新工具。当前局限包括大循环处理能力不足,未来将探索全局约束和3D重建集成等方向。原创 2025-08-28 13:11:05 · 713 阅读 · 0 评论 -
(论文速读)并行自回归视觉生成
本文提出了一种并行化自回归视觉生成方法(PAR),通过分析视觉token的依赖关系区分可并行生成的区域,在保持生成质量的同时显著提升效率。该方法将图像划分为多个区域,先顺序生成初始token建立全局结构,再并行生成弱依赖的远距离token。实验显示,在ImageNet和UCF-101数据集上分别实现3.6-9.5倍和3.8-12.6倍的加速,且质量下降极小。该方法无需修改模型架构,为高效视觉生成提供了新思路。原创 2025-08-22 16:00:22 · 880 阅读 · 0 评论 -
(论文速读)RandAR:突破传统限制的随机顺序图像自回归生成模型
RandAR:突破传统顺序约束的视觉生成新范式 本文提出RandAR模型,一种能够在随机顺序下生成图像的仅解码器自回归模型。通过引入"位置指令标记"的创新设计,RandAR打破了传统自回归模型必须遵循固定生成顺序的限制。模型在训练时处理随机排列的标记序列,展现出与光栅顺序相当的性能。更令人瞩目的是,RandAR获得了多项零样本能力:采用KV-Cache实现2.5倍加速的并行解码、支持图像绘制与分辨率外推等任务。实验表明,RandAR在保持生成质量的同时,显著提升了推理效率。原创 2025-08-22 16:00:03 · 1484 阅读 · 0 评论
分享