- 博客(498)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 更改pip源至清华、阿里、中科大镜像(临时使用)
可以在使用pip的时候加参数清华源:-i https://pypi.tuna.tsinghua.edu.cn/simple阿里源:-i https://mirrors.aliyun.com/pypi/simple中科大源:-i https://pypi.mirrors.ustc.edu.cn/simple/ ...
2019-10-05 16:29:07
13674
原创 (Arxiv-2025)全属性:用于视觉概念个性化的开放词汇属性编码器
本文提出Omni-Attribute,首个开放词汇图像属性编码器,能够从视觉输入中提取属性特定的表示。通过构建带有正负属性标注的语义关联图像对,并采用双目标训练范式(生成式损失确保高保真重建,对比损失实现属性解耦),该方法学习到的嵌入既能保留目标属性的细粒度细节,又能抑制无关信息。实验表明,Omni-Attribute在属性检索、个性化和组合生成任务中均达到最优性能,有效解决了传统方法中的"复制粘贴"伪影问题。该工作为视觉概念解耦和可控图像生成提供了新的解决方案。
2025-12-15 16:12:21
585
原创 (Arxiv-2025)零样本参考到视频生成的扩展
本文提出Saber框架,通过创新的带掩码训练策略解决参考到视频生成(R2V)的数据瓶颈问题。Saber仅需视频-文本对训练,无需昂贵的三元组数据,采用随机掩码视频帧作为参考图像,配合定制注意力机制学习身份一致性表征。实验表明Saber在OpenS2V-Eval基准上优于现有方法,并展现出对多参考图像和多视角的强泛化能力。该方法为大规模R2V研究提供了新方向。
2025-12-11 16:26:13
769
原创 (NIPS-2025)PolyVivid:具有跨模态交互与增强的生动多主体视频生成
本文提出了PolyVivid框架,用于解决多主体视频生成中的身份一致性和交互控制问题。该方法通过VLLM建立文本与图像的语义对齐,利用3D-RoPE模块实现跨模态双向信息融合,并设计了注意力继承机制防止身份漂移。此外,基于MLLM的数据构建流程结合团簇分析策略,有效提升了多主体区分度。实验表明,PolyVivid在身份保真度、视频真实感和主体对齐方面显著优于现有方法。该工作为细粒度可控的视频生成提供了新思路,在150字内完整概括了研究背景、方法创新和主要贡献。
2025-11-25 16:12:50
352
原创 (Arxiv-2025)ID-COMPOSER:具有分层身份保持的多主体视频合成
本文提出ID-COMPOSER框架,用于解决多主体视频生成中的身份保持、语义整合和时间一致性难题。该框架创新性地设计了分层身份保持注意力机制,通过主体内部、主体间和跨模态三个层次的特征聚合,有效维持多主体身份一致性;同时引入基于视觉-语言模型的语义理解模块,提升多主体交互的细粒度控制。此外,采用在线强化学习优化生成质量,并构建了专门的多主体视频数据集。实验表明,ID-COMPOSER在身份保持、视频质量和时间一致性方面显著优于现有方法,为个性化内容创作等应用提供了新思路。
2025-11-24 16:47:20
1007
原创 (Arxiv-2025)MAGREF:用于任意参考视频生成的掩码引导与主体解耦
本文提出MAGREF框架,用于解决任意参考视频生成中的身份不一致、主体混淆和拷贝-粘贴伪影等关键问题。该方法创新性地结合掩码引导与主体解耦机制:通过区域感知掩码实现多参考图像在通道维度的特征保留,同时利用主体解耦将文本语义注入对应视觉区域以避免混淆。此外,设计了四阶段数据管线来构建多样化训练样本。实验表明,MAGREF在多项指标上优于现有方法,为可控、高保真的多主体视频生成提供了有效解决方案。
2025-11-24 16:41:43
1060
原创 (CVPR-2025)重建与生成之间的权衡:在潜空间扩散模型中驯服优化困境
本文针对潜空间扩散模型中存在的重建与生成优化困境,提出了一种视觉基础模型对齐的VAE(VA-VAE)方法。研究发现,传统高维分词器虽能提升重建质量,却导致扩散模型收敛困难。通过引入视觉基础模型对齐损失(VF Loss),该工作有效约束了潜空间分布,在保持高重建能力的同时显著提升生成性能。配合改进的LightningDiT框架,系统在ImageNet 256×256生成任务上取得FID 1.35的SOTA结果,并实现21倍的训练加速(64 epoch达FID 2.11)。这一创新通过预训练视觉表征引导潜空间学
2025-11-19 14:40:38
950
原创 (SIGGRAPH Asia-2025)ConsistEdit:高度一致且精确的无需训练视觉编辑
本文摘要: ConsistEdit是一种针对多模态扩散Transformer(MM-DiT)设计的免训练视觉编辑方法。通过深入分析MM-DiT的注意力机制,研究者提出了三个关键发现:仅视觉部分的修改至关重要、各层均保留丰富语义信息、Q和K对结构控制具有强影响力。基于这些洞察,ConsistEdit采用三项核心技术:视觉专用注意力控制、掩码引导的预注意力融合、以及对Q/K/V的差异化操作。实验表明,该方法在保持编辑区域结构一致性和非编辑区域完整性的同时,支持多轮和多区域编辑,并可对结构一致性进行精细调节。相较
2025-11-18 15:12:56
445
原创 (AAAI-2026_Oral)通过自回归表示对齐释放大型语言模型在文本到图像生成中的潜力
本文提出了一种新颖的自回归表示对齐(ARRA)训练框架,旨在无需架构修改的情况下提升大型语言模型(LLMs)在文本到图像生成任务中的表现。ARRA通过引入混合token <HYBNEXT>,将局部下一token预测与外部视觉基础模型的全局语义对齐相结合,同时保留了原始自回归范式的优势。实验结果表明,ARRA在自然图像和医学图像生成任务中均取得显著改进:在ImageNet上FID降低16.6%,在医学影像任务上FID降低25.5%。该框架展现出即插即用的通用性,支持从零训练T2I模型、文本模型转换
2025-11-17 15:04:44
1018
原创 (Arxiv-2025)BINDWEAVE:通过跨模态整合实现主体一致性的视频生成
BindWeave提出了一种跨模态整合框架,通过多模态大语言模型(MLLM)实现主体一致性视频生成。该方法利用MLLM进行深层语义解析,将文本指令与视觉实体绑定,生成主体感知的隐状态来调控扩散Transformer。通过整合MLLM推理、CLIP语义特征和VAE细节特征,BindWeave在复杂多主体场景中实现了高保真且主体一致的视频生成。实验表明,该方法在OpenS2V基准上显著优于现有模型,为定制化视频生成提供了有效解决方案。
2025-11-10 16:01:27
882
原创 (Arxiv-2025)KALEIDO:开源的多主体参考视频生成模型
摘要: 本文提出KALEIDO,一种开源的多主体参考视频生成模型,通过优化数据构建和条件注入策略解决现有S2V模型在多主体一致性和背景解耦方面的不足。KALEIDO采用严格筛选与交叉配对的数据管线增强多样性,并引入参考旋转位置编码(R-RoPE)实现高效多图像融合。实验表明,KALEIDO在主体保真度、背景解耦和生成质量上显著优于现有方法。代码和模型已开源,推动S2V领域研究进展。
2025-11-10 15:04:51
1243
原创 (Arxiv-2025)Lynx:迈向高保真个性化视频生成
摘要: 字节跳动提出Lynx模型,实现了从单张图像生成高保真个性化视频。基于扩散Transformer(DiT),Lynx通过两个轻量适配器(ID-adapter和Ref-adapter)保持身份一致性:ID-adapter将人脸特征转换为身份token,Ref-adapter通过跨注意力注入VAE细节特征。在40个主体和20个提示的测试集上(共800个案例),Lynx在身份相似度、提示跟随和视频质量上均优于现有方法,同时支持多样光照、姿态和场景变化。训练采用时空帧打包和渐进策略,平衡了效率与生成效果。
2025-09-26 16:36:29
1268
原创 (Arxiv-2025)OmniInsert:无遮罩视频插入任意参考通过扩散 Transformer 模型
摘要 本文提出OmniInsert,一种基于扩散Transformer的无遮罩视频插入方法,能够将任意参考主体无缝融入源视频。针对该任务的数据稀缺、主体-场景平衡和插入协调三大挑战,作者提出:(1) InsertPipe数据管道,通过RealCapture、SynthGen和SimInteract三种方式自动构建多样化训练数据;(2) OmniInsert框架,包含条件特定特征注入机制(CFI)实现多源条件区分性融合,配合渐进式训练策略(PT)和主体聚焦损失(SL)优化主体一致性;(3) 插入式偏好优化(I
2025-09-24 16:18:46
1624
原创 (Arxiv-2025)重构对齐提升了统一多模态模型的性能
本文提出重构对齐(RecA),一种高效的后训练方法,用于提升统一多模态模型(UMM)的性能。传统UMM训练依赖稀疏的图文对,导致视觉细节丢失。RecA利用视觉理解编码器的嵌入作为密集"文本提示",通过自监督重构损失重新对齐理解与生成模块。实验表明,仅需27个GPU小时的后训练,RecA就能显著提升图像生成(GenEval从0.73→0.90)和编辑(ImgEdit从3.38→3.75)性能,超越更大规模的模型。该方法通用性强,适用于自回归、掩码自回归和基于扩散的不同UMM架构。核心创新在
2025-09-11 17:30:00
2246
原创 (ICLR-2025)SANA:高效高分辨率图像合成的线性扩散 Transformer
SANA:高效高分辨率图像生成的线性扩散Transformer NVIDIA提出的SANA框架在ICLR 2025上展示了一种高效生成4K分辨率图像的新方法。该框架通过四大创新设计显著提升了性能:1) 采用32倍压缩的深度自动编码器,大幅减少潜在token数量;2) 使用线性注意力机制替代传统注意力,将复杂度从O(N²)降至O(N);3) 引入Gemma LLM作为文本编码器,增强指令跟随能力;4) 开发Flow-DPM-Solver减少采样步数。实验表明,仅0.6B参数的SANA模型在性能上媲美12B参数
2025-09-10 16:53:30
1005
原创 (ICLR-2025)深度压缩自动编码器用于高效高分辨率扩散模型
本文摘要: MIT研究人员提出深度压缩自动编码器(DC-AE),通过两种创新技术显著提升高分辨率扩散模型的效率:(1)残差自动编码技术,通过空间到通道变换学习残差特征,解决高压缩比下的优化难题;(2)解耦高分辨率适应策略,采用三阶段训练方法减轻泛化损失。实验表明,DC-AE将空间压缩比提升至128倍仍保持重建质量,在ImageNet 512×512任务中,为UViT-H模型带来19.1倍推理加速和17.9倍训练加速,同时FID指标优于当前主流的SD-VAE-f8自动编码器。该工作为高分辨率图像生成提供了一种
2025-09-10 15:32:22
1126
原创 (Arxiv-2025)USO:通过解缠与奖励学习实现统一的风格与主体驱动生成
本文提出了一种新颖的统一风格-主体生成框架USO,通过解缠学习和奖励机制实现了风格与内容的高效融合。研究团队构建了大规模三元组数据集,开发了双重训练策略(风格对齐与内容解缠),并引入风格奖励学习(SRL)进一步优化性能。实验表明,USO在风格相似性和主体保真度方面均达到SOTA水平,同时发布的USO-Bench是首个联合评估这两项指标的基准。该工作突破了传统方法将风格与主体生成割裂处理的局限,通过跨任务协同解缠实现了性能的相互促进,为多模态生成提供了新思路。
2025-09-09 11:12:36
857
原创 (Arxiv-2025)MOSAIC:通过对应感知的对齐与解缠实现多主体个性化生成
MOSAIC:多主体个性化生成新方法实现突破 字节跳动团队提出的MOSAIC框架在多主体图像生成领域取得重要进展。该方法通过语义对应对齐与特征解缠技术,有效解决了现有方法在多个参考主体场景下的身份混淆与属性泄漏问题。研究团队首先构建了SemAlign-MS数据集,包含120万对带有细粒度语义对应标注的图像对,为模型训练提供了关键监督信号。MOSAIC创新性地引入语义对应注意力损失和多参考解缠损失,前者确保参考主体特征精确映射到目标图像的指定区域,后者通过正交约束减少不同主体间的特征干扰。实验结果表明,该方法
2025-09-08 19:05:39
905
原创 (ICCV-2021)DOLG:通过局部和全局特征的深度正交融合实现单阶段图像检索
本文提出了一种新颖的单阶段图像检索框架DOLG,通过深度正交融合局部与全局特征生成紧凑图像表示。该方法摒弃了传统两阶段范式,采用端到端方式联合学习:1) 局部分支利用多空洞卷积模拟空间金字塔并引入自注意力机制,选择性提取判别性局部特征;2) 全局分支通过GeM池化获取高级语义;3) 创新性正交融合模块分解出与全局特征正交的局部成分进行互补拼接。实验表明,DOLG在Revisited Oxford和Paris数据集上实现了SOTA性能,验证了单阶段正交融合策略的有效性。该框架仅需图像级标签训练,为图像检索提供
2025-09-02 19:18:51
1492
原创 (TMLR-2024)DINOv2:在无监督条件下学习鲁棒的视觉特征
DINOv2:无监督学习下的鲁棒视觉特征模型 本文提出了DINOv2,一种通过自监督学习获得通用视觉特征的模型。研究团队重新审视了现有判别式自监督方法,并通过技术改进实现了大规模稳定训练。在数据方面,开发了自动化管道从1.42亿张未筛选图像中构建高质量数据集,采用聚类方法平衡概念分布。模型训练了10亿参数的ViT,并蒸馏为更小模型。实验表明,DINOv2在图像和像素级任务上超越了当前最佳弱监督模型(OpenCLIP)的性能,证实了自监督学习能够获得可迁移的冻结特征。该方法无需微调即可在各种视觉任务中表现出色
2025-09-02 17:14:38
878
原创 (CVPR-2024)VideoBooth:基于扩散的视频生成与图像提示
摘要: 本文提出VideoBooth,一种基于扩散模型的视频生成框架,通过图像提示实现精准的主体外观控制。现有文本到视频方法难以通过文本准确描述复杂视觉特征,而VideoBooth创新性地采用由粗到细的双路径嵌入:1)粗粒度路径通过CLIP图像编码器和MLP层将图像提示映射到文本嵌入空间;2)细粒度路径通过多尺度注意力注入模块,将图像空间细节融入跨帧注意力层,增强生成细节和时间一致性。实验表明,VideoBooth无需微调即可生成高质量定制视频,显著优于文本驱动方法。该框架为图像引导视频生成提供了通用解决方
2025-09-02 11:58:16
941
原创 (Arxiv-2025)ConceptMaster:基于扩散 Transformer 模型的多概念视频定制,无需测试时微调
文章摘要 本文提出ConceptMaster,一种无需测试时微调的多概念视频定制(MCVC)方法。该方法解决了两个关键挑战:1) 身份解耦问题,通过独立注入解耦的多概念嵌入,有效区分相似概念的属性;2) 高质量数据稀缺问题,设计数据管线收集130万+跨领域视频-实体对。ConceptMaster采用查询Transformer提取视觉嵌入,结合解耦注意力模块保持概念唯一性,并通过独立的多概念注入器增强表征能力。实验表明,该方法在六种概念组合场景下均优于现有方案,显著提升了视频定制的质量和一致性。相关工作包括代
2025-09-02 11:01:45
1107
原创 (Arxiv-2025)VACE:一体化视频创作与编辑
本文提出VACE,一种基于扩散Transformer的统一视频创作与编辑框架,支持多种视频任务(文本生成视频、参考生成视频、视频编辑等)的自由组合。通过设计的视频条件单元(VCU)统一接口和概念解耦策略,VACE能灵活处理多模态输入并保持时空一致性。实验表明该统一模型性能与专用模型相当,同时支持长视频重新渲染等创新应用,为视频内容创作提供了高效解决方案。
2025-09-01 16:10:22
1255
原创 (Arxiv-2025)HunyuanCustom:一种面向多模态驱动的定制化视频生成架构
摘要 腾讯Hunyuan团队提出HunyuanCustom,一种多模态驱动的定制化视频生成框架。该框架在HunyuanVideo基础上,通过引入LLaVA文本-图像融合模块增强多模态理解,并设计图像ID增强模块强化跨帧身份特征。针对音频和视频条件生成,分别提出AudioNet(分层音频-视频对齐)和视频驱动注入模块(基于patchify的特征对齐)。实验表明,HunyuanCustom在单/多主体场景下,身份一致性、真实感和多模态对齐方面优于现有方法,支持虚拟人广告、虚拟试穿等应用场景。代码已开源。 (98
2025-09-01 14:53:15
1317
原创 (CVPR-2025)VideoMage:文本生成视频扩散模型的多主体与动作定制化
摘要 本文提出VideoMage框架,首次实现了文本生成视频中多主体身份与动作模式的联合定制。现有方法仅能单独处理主体定制或动作定制,难以实现多主体的交互式动作控制。VideoMage通过主体LoRA和动作LoRA分别捕捉用户提供的图像和视频中的视觉特征与动作模式,并创新性地采用外观无关的动作学习方法消除视觉干扰。同时,提出时空协同组合机制引导多主体在目标动作下的交互。实验表明,VideoMage能生成连贯、可控的视频,在保持主体身份一致性的同时精确复现复杂交互动作,优于现有方法。该研究为视频内容创作提供了
2025-08-27 11:38:43
1070
原创 (Arxiv-2024)VideoMaker:零样本定制化视频生成,依托于视频扩散模型的内在力量
本文提出VideoMaker框架,利用视频扩散模型(VDM)的内在能力实现零样本定制化视频生成。不同于现有方法依赖额外模型提取和注入主体特征,该方法发现VDM本身已具备这些能力:1)将参考图像直接输入VDM可提取细粒度特征;2)利用VDM的空间自注意力机制实现特征注入。通过双向交互机制和简单学习策略,框架仅需轻量微调即可生成高保真定制视频,在人物和物体生成任务上均优于现有方法。该方法无需额外模块,显著提升了主体一致性和生成多样性。
2025-08-26 16:28:34
587
原创 (CVPR-2025)视频生成中的多主体开放集个性化
本文提出Video Alchemist,一种支持多主体开放集个性化的视频生成模型。该模型基于新型Diffusion Transformer模块构建,通过交叉注意力层融合参考图像和主体级文本提示,可同时处理前景物体和背景个性化,无需测试阶段优化。针对数据收集难题,作者设计自动化流程从视频中提取参考帧并构建增强数据集,缓解过拟合问题。此外,提出MSRVTT-Personalization评估基准,在对象分割级别评估主体保真度。实验表明,该方法在定量和定性评估上均优于现有技术。
2025-08-26 11:13:56
737
原创 (CVPR-2025)通过频率分解实现身份保持的文本到视频生成
本文提出了一种无需调优的身份保持文本到视频生成方法ConsisID,通过频域分解实现高效的身份一致性控制。该方法将人脸特征分解为低频全局特征(轮廓、比例)和高频细节特征(身份标记),分别注入DiT模型的不同位置:低频信号与噪声潜变量拼接以加速收敛,高频信号通过双塔特征提取器与视觉token融合增强感知能力。此外,作者提出分层训练策略(由粗到细训练、动态掩码损失和跨人脸损失)进一步提升模型泛化能力。实验表明,该方法能生成高质量、可编辑且身份一致性良好的视频,为基于DiT的IP2TV任务提供了有效解决方案。相比
2025-08-21 10:53:52
612
原创 (Arxiv-2025)Concat-ID:面向通用身份保持的视频合成
本文提出Concat-ID框架,实现通用身份保持的视频生成。该方法通过VAE提取图像特征,与视频潜变量序列拼接,利用3D自注意力机制自然融合身份信息,无需额外参数。创新性地设计了跨视频配对策略和多阶段训练方案,平衡身份一致性与面部可编辑性。实验表明,Concat-ID在单身份、多身份及多主体场景中均优于现有方法,可应用于虚拟试穿等多样化场景。该方法仅依赖标准视频生成模型架构,具有通用性和可扩展性优势。
2025-08-20 17:44:24
899
原创 (Arxiv-2025)SkyReels-A2:在视频扩散变换器中组合任意内容
本文提出SkyReels-A2框架,实现了基于多参考图像和文本提示的可控视频生成。该框架通过双流结构处理参考图像:语义分支提取全局特征,空间分支保留局部细节。作者构建了"文本-参考-视频"三元组数据集,并设计了A2-Bench评估基准。实验表明,该方法能生成高质量、元素一致的自然视频,性能优于现有闭源模型。SkyReels-A2是首个开源的商用级元素到视频生成模型,为创意应用提供了新工具。
2025-08-20 14:00:43
1471
原创 (Arxiv-2025)OPENS2V-NEXUS:一个面向主体到视频生成的详细基准与百万规模数据集
本文摘要: OPENS2V-NEXUS是北京大学提出的面向主体到视频(S2V)生成任务的首个综合性基准与百万规模数据集。该工作包含OpenS2V-Eval基准和OpenS2V-5M数据集两部分。OpenS2V-Eval定义了7个S2V生成类别(如单人脸/身体/实体到视频等),包含180个测试样本,并提出了三个创新评估指标:NexusScore(主体一致性)、NaturalScore(自然性)和GmeScore(文本相关性),解决了现有基准在细粒度评估上的不足。OpenS2V-5M数据集包含535万高质量主体
2025-08-18 15:33:56
750
原创 (Arxiv-2025)Stand-In:一种轻量化、即插即用的身份控制方法用于视频生成
本文提出Stand-In,一种轻量化的即插即用身份控制框架,用于视频生成中的身份保持。该方法通过引入条件图像分支和受限自注意力机制,仅需训练约1%的额外参数(2000对数据)即可实现高质量身份保持。创新性地利用预训练VAE将条件图像映射到视频潜空间,通过3D RoPE位置编码区分图像和视频token。实验表明,该方法在面部相似度和自然度上均优于全参数训练方法,并能无缝集成到主体驱动生成、风格化、人脸替换等任务中,展现出优异的泛化能力和兼容性。
2025-08-15 18:25:34
926
原创 (Arxiv-2025)Phantom:通过跨模态对齐实现主体一致性视频生成
本文提出Phantom框架,专注于主体一致性视频生成(Subject-to-Video)任务。通过构建文本-图像-视频三元组数据,解决了传统方法中图像内容泄漏和多主体混淆问题。Phantom采用动态注入机制,在MMDiT架构基础上重新设计跨模态对齐模型,支持单主体和多主体参考条件下的高质量视频生成。实验表明,该方法在性能上超越现有商业解决方案,特别在人体生成任务中展现出显著优势。Phantom的统一框架为电影、广告等应用场景提供了实用的视频生成解决方案。
2025-08-11 11:34:02
1754
原创 (Arxiv-2025)Phantom-Data:迈向通用的主体一致性视频生成数据集
本文提出Phantom-Data,首个通用跨对主体一致性视频生成数据集,旨在解决现有模型存在的"复制-粘贴"问题。该数据集包含约100万组身份一致的图像-视频样本对,通过三阶段流程构建:通用主体检测、大规模跨上下文检索和先验引导的身份验证。实验表明,使用Phantom-Data训练能显著提升模型对文本提示的响应能力和生成质量,同时保持主体一致性。相比现有局限于特定领域的数据集,Phantom-Data覆盖广泛主体类别,为通用主体到视频生成提供了高质量训练基础。
2025-08-11 11:00:41
1270
原创 (Arxiv-2025) CINEMA:通过基于MLLM的引导实现多主体一致性视频生成
字节跳动提出的CINEMA框架通过多模态大语言模型(MLLM)实现多主体一致性视频生成,解决了现有方法在主体关系建模和视觉一致性方面的不足。该框架无需显式绑定主体图像与文本实体,利用MLLM解析主体间关系,显著提升了生成视频的连贯性。CINEMA采用模型无关设计,通过AlignerNet模块将MLLM输出对齐到文本特征,并注入参考图像的VAE特征保持主体一致性。实验表明,该方法在主体一致性和场景协调性方面优于现有技术,为个性化视频创作提供了新思路。
2025-08-08 15:21:46
1390
原创 (Arxiv-2025)OVIS-U1技术报告
Ovis-U1技术报告摘要:阿里巴巴团队发布的Ovis-U1是一个30亿参数的统一多模态模型,集理解、生成和编辑能力于一体。该模型基于扩散Transformer架构,引入双向token精炼器增强模态交互,采用统一训练策略协同提升多任务性能。在OpenCompass等基准测试中,Ovis-U1超越现有先进模型,在文本生成图像任务和图像编辑任务上表现优异。模型创新包括:1) 多样化多模态训练数据;2) 改进的视觉解码器架构;3) 统一训练框架促进能力协同。Ovis-U1的开源将推动多模态AI发展,为构建通用智能
2025-07-23 21:18:34
1412
原创 (Arxiv-2025)OmniGen2:通向先进多模态生成的探索
摘要 本研究提出OmniGen2,一种开源多模态生成模型,通过独立解码路径处理文本和图像任务,保留原始文本生成能力的同时提升图像生成质量。模型采用解耦架构,将VAE特征专用于扩散解码器,避免影响多模态理解性能。研究构建了面向图像编辑和上下文生成任务的数据流程,并引入反思机制增强生成能力。尽管参数规模较小,OmniGen2在文本生成图像、图像编辑等任务上表现优异。针对评估不足的上下文生成任务,提出了OmniContext基准测试,结果显示OmniGen2在开源模型中达到最优一致性表现。研究开源了模型、训练代码
2025-07-23 19:28:27
1430
原创 (Arxiv-2025)UniWorld-V1:用于统一视觉理解与生成的高分辨率语义编码器
本文提出UniWorld-V1,一种基于高分辨率语义编码器的统一视觉理解与生成框架。通过实验分析GPT-4o-Image的视觉特征提取机制,研究者发现其可能采用语义编码器而非传统VAE。UniWorld-V1结合多模态大语言模型和对比语义编码器,在仅270万训练数据下,实现了图像理解、生成、操控和感知等多种任务的卓越性能。模型采用两阶段训练策略:语义对齐预训练和一致性生成微调,并创新性地使用ZeRO-3 EMA优化技术解决大模型训练难题。实验表明,该模型在ImgEdit-Bench等基准测试中超越专用编辑模
2025-07-23 18:21:57
979
原创 (Arxiv-2025)利用 MetaQueries 实现模态间迁移
摘要 Meta研究团队提出MetaQueries方法,实现多模态大语言模型(MLLM)与扩散模型之间的高效知识迁移。该方法通过一组可学习查询向量,将冻结的MLLM潜在表示连接至扩散解码器,在保持MLLM原有理解能力的同时赋予其图像生成能力。不同于传统需要微调主干的方案,MetaQueries仅需标准图文对数据和扩散目标即可训练,且支持指令微调实现高级应用。实验表明,该方法在多个基准测试中达到SOTA水平,同时有效保留了MLLM的推理和知识迁移能力。这项研究为统一多模态建模提供了更简洁高效的实现路径。
2025-07-23 14:43:59
727
概率的公式推导,这步不知道怎么推过去的
2021-07-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
6