Transformer
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
重磅!阿里达摩院发布首个VLA与世界模型统一架构RynnVLA-002:97.4%成功率刷新认知
《RynnVLA-002:统一视觉-语言-动作与世界模型的创新架构》 摘要:本文提出RynnVLA-002模型,首次将视觉-语言-动作(VLA)模型与世界模型统一于单一框架。该模型通过双向增强机制实现互补:世界模型利用物理规律优化动作生成,而VLA增强视觉理解以提升图像预测精度。创新性地采用混合动作生成策略,包括"动作注意力掩码"解决离散动作误差累积,以及连续ActionTransformer头确保实机操作的平滑性。原创 2025-11-25 23:32:56 · 1025 阅读 · 0 评论 -
LucidFlux-14B | 最新通用图形修复大模型:效果超越闭源付费商业模型!
LucidFlux-14B是首个开源通用图像修复大模型,采用Diffusion Transformer架构,在多个任务上超越商业模型。它创新性地设计了双分支调控器(DBC)和时序层级自适应调制(TLCM),通过轻量复原代理和退化图像互补提升细节恢复能力,并采用SigLIP代替文本caption实现语义对齐。配合34.2万张严格筛选的高质量训练数据,模型在视觉质量和指标上全面领先。实验显示,LucidFlux在细节恢复和语义一致性上显著优于主流开源和商业方案,为图像修复提供了新范式。原创 2025-10-12 09:07:35 · 733 阅读 · 0 评论 -
视频生成迎来效率革命!字节提出视频生成稀疏注意力机制,计算量降20倍,速度升17.79倍!
BSA框架提出了一种可训练的双向动态稀疏注意力机制,首次在视频扩散训练中对查询(Query)和键值对(Key-Value)进行正交稀疏化处理。该方法设计了不同的动态稀疏策略:针对查询块,基于语义相似度选择关键token;针对键值块,采用统计动态阈值选择关键子集。实验表明,BSA在Wan2.1-1.3B数据集上实现了20倍FLOPs降低、17.7倍训练加速和6倍推理加速,同时保持或超越全注意力机制的生成质量。该框架有效解决了视频DiT模型在高分辨率长视频生成中的计算瓶颈问题。原创 2025-09-10 07:46:43 · 827 阅读 · 0 评论 -
AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!
AudioGen-Omni 首个统一多模态框架,支持视频同步生成多样化音频(通用音频、语音、歌曲)。该模型采用多模态扩散Transformer(MMDiT)架构,通过相位对齐位置注入(PAAPI)技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示,无需音素时长监督。模型在联合训练范式下,利用大规模多模态数据,支持灵活的条件输入(视频/文本/音频任意组合)。实验表明,其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平,8秒音频生成仅需1.91秒。原创 2025-08-05 21:36:11 · 1726 阅读 · 0 评论 -
一张图生成舞蹈视频!字节等发布黑科技X-Dancer:零样本音乐驱动,真实感碾压3D方案
论文链接:https://arxiv.org/pdf/2502.17414一种基于Transformer-Diffusion的新型音乐到舞蹈人体图像动画方法,在运动多样性、表现力、音乐对齐和视频质量方面达到了最先进的性能。一种跨模态Transformer模型,通过使用带有关键点置信度的全身2D人体姿态的多尺度tokenization方案,捕捉与音乐特征同步的长距离舞蹈动作。一种基于扩散的人体图像动画模型,能够解释时间姿态tokens并将其转化为一致的高分辨率视频输出。原创 2025-03-05 22:36:52 · 1461 阅读 · 0 评论 -
首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!
解决的问题RAR(随机自回归建模)旨在提升图像生成任务的表现,同时保持与语言建模框架的完全兼容性。提出的方案RAR采用了一种简单的方法,通过标准的自回归训练过程并结合下一个 token 预测目标,将输入序列随机打乱到不同的分解顺序。在训练过程中,使用概率 r 将输入序列的排列顺序随机化,其中 r 从 1 开始并逐渐线性衰减至 0,以让模型学习所有分解顺序的期望似然值。应用的技术。原创 2024-11-11 00:33:01 · 1207 阅读 · 0 评论
分享