多模态
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大幅超越π0.5和X-VLA!清北最新Motus:理解、生成、控制全能, 海量视频喂出“最强大脑”
提出了 Motus,这是一个统一的具身基础模型,首次在一个生成式框架内集成了五种主流范式(世界模型 WMs、逆动力学模型 IDMs、视觉-语言-动作模型 VLAs、视频生成模型 VGMs 以及 视频-动作联合预测模型),且未牺牲通用的多模态先验。:引入了混合 Transformer (Mixture-of-Transformer, MoT) 架构,通过“三模态联合注意力机制”连接预训练的视频生成专家、动作专家和理解专家。原创 2025-12-23 23:34:59 · 848 阅读 · 0 评论 -
超越Veo和Runway!可灵开源Kling-Omni:一个模型通吃视频生成、剪辑和多模态推理!
当前视频生成、编辑和智能推理任务之间存在功能分离,导致工具碎片化,难以处理多样化的用户输入并实现高级别的感知与创作协同。碎片化的视频生成与编辑方法:现有模型通常专注于特定任务,如文本/图像到视频合成,且依赖静态文本编码器,难以捕捉复杂视觉细节。视频编辑和理解也常依赖独立的、任务特定的管道或外部适配器,造成集成和扩展困难。交互范式的限制:仅依赖自然语言提示难以捕捉视觉想象的细微之处,文本在描述精确空间关系、视觉参考和时间动态方面存在固有局限,导致用户意图与模型输出之间存在差距。模型智能不足。原创 2025-12-23 23:29:43 · 1087 阅读 · 0 评论 -
多任务多模态全统一!港科大&快手可灵等最新UnityVideo:生成、理解、控制多项SOTA!
UnityVideo,这是一个在单一 Diffusion Transformer 中对多种视觉模态和任务进行建模的统一框架。通过利用模态自适应学习,UnityVideo 实现了 RGB 视频与辅助模态(深度、光流、分割、骨骼和 DensePose)之间的双向学习,从而在两类任务上都实现了相互增强。本文的实验展示了其在不同基准上的最先进性能,以及对未见模态组合的强大零样本泛化能力。原创 2025-12-17 07:51:21 · 444 阅读 · 0 评论 -
北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!
EditThinker,使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。原创 2025-12-11 07:17:32 · 850 阅读 · 0 评论 -
原生多模态统一架构比不过单模态专家模型?华为团队出品的EMMA “Say No”
华为发布EMMA,通过高效的编码器设计融合策略和网络结构语义共享及高层任务解耦机制,能够高效地完成原生多模态统一架构训练,最终配合上高质量的数据工程和训练方案EMMA能够在多模态理解、生成及编辑等榜单上大幅超过BAGEL。原创 2025-12-11 07:12:31 · 611 阅读 · 0 评论 -
多模态理解生成“大一统”!Meta&港大等重磅发布Tuna:统一视觉表征,性能碾压Show-o2
Tuna是一个创新的统一多模态模型,通过独特的统一视觉表示设计,在一个框架内实现了图像/视频理解、生成和编辑功能。该模型将VAE编码器与表示编码器直接连接,形成兼顾语义理解和细节生成的统一表示空间。实验表明,Tuna在多个基准测试中达到SOTA水平,性能优于现有解耦模型和统一模型。消融研究验证了其统一表示设计的优越性,证明了理解和生成任务间的协同效应。Tuna的成功为开发更高效的多模态AI系统提供了新思路。原创 2025-12-03 13:41:34 · 659 阅读 · 0 评论 -
给图像生成配“阅卷老师”!RubricRL拒绝黑盒瞎蒙,用细粒度量表驯服大模型,指哪改哪!
本文提出RubricRL框架,通过动态生成可解释的评估量规来改进文生图模型的强化学习训练。该框架采用多模态大模型自动构建提示词自适应的细粒度视觉标准(如物体数量、OCR保真度等),并设计分组相对策略优化算法进行训练。实验表明,RubricRL在提升图像质量的同时,显著增强了训练过程的可解释性和用户可控性,在DPG-Bench和GenEval基准上性能优于现有方法4%。创新点包括:1)通用化量规奖励设计;2)提示词自适应加权机制;3)动态轨迹采样策略。原创 2025-12-01 13:05:07 · 706 阅读 · 0 评论 -
硬刚GPT-Image-1?苹果最新UniGen-1.5强势发布:一个模型搞定理解+生成+编辑!
UniGen-1.5创新性地构建了统一多模态大模型,通过共享奖励模型的强化学习框架协同优化图像生成与编辑任务。研究采用Qwen2.5-7B为基础架构,集成离散视觉分词器MAGViTv2和连续视觉编码器SigLIP2,实现384×384分辨率的图像处理。关键创新包括:1)编辑指令对齐机制提升指令理解能力;2)统一强化学习策略联合优化双任务;3)共享奖励模型设计。实验表明,该模型在GenEval(0.89)、DPG-Bench(86.83)和ImgEdit(4.31)等基准测试中均达到领先水平。原创 2025-11-24 22:24:32 · 856 阅读 · 0 评论 -
告别文字想象!快手可灵团队开源VANS:实现从“语言描述”到“动态演示”跨越,多项SOTA
本文提出视频化下一代事件预测(VNEP)新任务,将事件推理从文本描述升级为动态视频演示。针对该任务的多模态协同挑战,作者设计了VANS框架:通过联合分组相对策略优化(Joint-GRPO)算法,分阶段协调视觉语言模型(VLM)和视频扩散模型(VDM)。VLM首先生成视觉友好的事件描述,VDM随后生成语义准确且视觉连贯的预测视频。为支持模型训练,构建了包含10万样本的VANS-Data-100K数据集。原创 2025-11-24 22:16:56 · 914 阅读 · 0 评论 -
文生图也会“精神分裂”?北大、字节联手揭秘:越思考越画错!并行框架终结AI“左右互搏”
本文提出了一种并行多模态扩散框架MMaDA-Parallel,用于提升"思考感知"型图像生成与编辑任务中的跨模态对齐性。针对现有顺序生成方法中推理错误会传播到图像生成阶段的问题,该框架通过双向注意力机制实现文本和图像的并行生成,并在去噪过程中持续强化语义一致性。实验表明,在自建的ParaBench基准测试中,该方法在输出对齐指标上比现有最优模型提升6.9%,同时保持了单模态生成质量。这项工作为多模态协同生成提供了更稳健的解决方案。原创 2025-11-20 22:45:40 · 760 阅读 · 0 评论 -
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件
《IVEBench:首个指令驱动视频编辑综合评测基准》提出了一套全面评估指令驱动视频编辑能力的基准系统。该研究针对当前视频编辑评测存在的三大局限:1)缺乏针对自然语言指令的评测体系;2)任务类型局限于静态图像编辑范式;3)评测维度不完整等问题,构建了包含600条高质量视频、覆盖7大语义维度的多样化数据库,并设计了8类35子类的视频编辑任务体系。 创新性地结合传统指标与多模态大模型(MLLM)评估,建立了包含12项定量指标的三维评估体系(视频质量/指令一致性/视频保真度)。原创 2025-10-28 09:26:38 · 768 阅读 · 0 评论 -
小模型大能力!苹果发布统一多模态小钢炮Manzano:单模型搞定识图、生图,效果炸裂!
Manzano模型创新性地通过混合视觉分词器和统一训练策略,实现了多模态大语言模型在图像理解与生成任务上的协同优化。该模型采用共享编码器+双适配器结构,在单一语义空间中同时支持连续(理解)和离散(生成)表征,有效缓解任务冲突。实验表明,3B小模型即可在文本密集型理解任务上媲美专用模型,并在生成任务达到SOTA性能。其解耦设计和三阶段训练方案(预训练-继续预训练-微调)展现出优异的扩展性:LLM解码器扩大至30B时性能持续提升,尤其在文本渲染和图像结构完整性方面进步显著。原创 2025-10-15 22:47:26 · 696 阅读 · 0 评论 -
多模态进入“实时交互”时代!字节Hyper-Bagel驯服巨模型:三大任务无损加速最高22倍!
Hyper-Bagel是一个创新的多模态加速框架,通过分治策略同时提升理解和生成任务效率。该框架采用推测解码优化多模态理解(加速2.16倍),结合三阶段蒸馏技术(CFG蒸馏、对抗性蒸馏、DMDO)实现生成任务无损加速(文本到图像16.67倍,图像编辑22倍)。特别开发的1-NFE模型通过对抗训练和人类反馈学习,支持近实时交互。实验证实6-NFE模型在GenEval和GEdit-Bench保持原始质量,1-NFE模型在交互场景表现优异。这一突破性工作有效解决了多模态模型计算瓶颈,为实时应用提供了实用解决方案。原创 2025-10-14 12:57:57 · 974 阅读 · 0 评论 -
图文双指令开智能创作新纪元!DreamOmni2实现“意念级”P图,文字图片都是你的画笔!
摘要: DreamOmni2提出了基于多模态指令的图像编辑和生成新任务,支持文本与图像指令结合,涵盖具体物体和抽象概念。通过三阶段数据合成流程,构建了高质量训练数据集。框架创新包括索引编码与位置编码偏移方案,以处理多参考图像输入,并通过联合视觉语言模型(VLM)增强复杂指令理解能力。实验表明,DreamOmni2在真实场景中优于现有开源模型,性能接近商业方案(如GPT-4o),尤其在抽象属性生成和编辑一致性上表现突出。原创 2025-10-12 09:03:16 · 596 阅读 · 0 评论 -
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
摘要: 本文提出Query-Kontext,一种经济型统一多模态模型(UMM),通过解耦视觉语言模型(VLM)的多模态生成推理与扩散模型的高保真渲染能力,提升图像生成与编辑性能。核心设计包括:1)多模态“Kontext”机制,将VLM输出的语义线索与扩散模型连接;2)三阶段渐进训练策略,逐步对齐VLM与扩散模型,增强各自优势;3)混合数据集,整合真实、合成及开源数据,覆盖文本生成、指令编辑等多样化任务。原创 2025-10-10 13:13:38 · 1216 阅读 · 0 评论 -
告别“无脑”生成!VChain视频推理链:仅靠几个关键帧,自动拍出因果清晰的“电影级”短片
VChain:基于视觉思维链的视频生成推理框架 VChain提出了一种创新的视频生成方法,通过引入多模态大模型的视觉思维链(chain-of-visual-thought)来增强视频的逻辑连贯性。该框架的核心是利用GPT等大型模型推理生成具有因果关系的稀疏关键帧序列,作为视频生成的指导。在推理阶段仅对这些关键帧进行轻量化微调,显著提升了复杂动态场景的生成质量,如物体交互和状态转变。实验表明,VChain在保持基础视觉质量的同时,在物理合理性、常识推理和因果一致性等方面表现优异。原创 2025-10-09 08:06:14 · 861 阅读 · 0 评论 -
动脑就能P图!LoongX重磅突破:首个「脑波+AI」图像编辑系统诞生,意念修图不是梦!
摘要: 本文提出LoongX框架,利用多模态神经信号(EEG、fNIRS、PPG、动作及语音)驱动免手图像编辑,解决了传统文本提示的交互局限。通过跨尺度状态空间(CS3)编码器和动态门控融合(DGF)模块,LoongX高效提取并融合多模态特征,结合扩散模型(DiT)实现语义对齐。原创 2025-07-22 22:33:49 · 1041 阅读 · 0 评论 -
首个自回归文生图风格化!StyleAR突破AI绘图新高度:单张图+提示词,完美复刻任意风格!
当前多模态自回归(AR)模型虽在视觉生成中表现优异,但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据(包含提示词、参考风格图像和目标图像),但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题,影响生成图像的风格一致性和语义对齐。原创 2025-06-09 00:38:12 · 1191 阅读 · 0 评论 -
图像生成里的“思维链”对决:DPO与GRPO谁主沉浮?港中文&北大等首发系统化对比研究
这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”,而是更适合于不同场景:DPO 适合在已有高质量数据基础上深度优化,追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时,研究也强调了奖励模型作为“训练导航仪”的重要性,未来在奖励模型的泛化性设计上仍有很大提升空间。原创 2025-06-09 00:34:18 · 1024 阅读 · 0 评论 -
优于所有开源和商业模型!首个图文声影四模态定制视频生成器HunyuanCustom震撼发布!
HunyuanCustom是一种创新的多模态定制视频生成框架,首次实现了图像、音频、视频和文本四模态联合驱动的视频生成,突破了传统单模态(如图像)的限制。该框架通过时序拼接和跨帧特征增强,显著提升了生成视频中主题的身份一致性,优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制,如AudioNet和视频Patchify对齐,实现了多模态条件的高效解耦与融合,兼顾了灵活性与性能。原创 2025-05-11 23:27:00 · 922 阅读 · 0 评论 -
多模态与生成正迈向终极大一统!阿里最新3万字长文梳理统一的多模态理解和生成模型
本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先,文章介绍了多模态理解与文本生成图像模型的基础概念,并梳理了现有统一模型的三大架构范式:基于扩散的架构、基于自回归的架构,以及融合自回归与扩散机制的混合架构。随后,文章整理了适配统一模型的数据集与评测基准,为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战,包括分词策略、跨模态注意力机制与数据问题。原创 2025-05-11 23:22:24 · 2170 阅读 · 1 评论 -
AI镜头控制黑科技喜提多项SOTA!浙大&上交等发布统一多模态视频生成框架OmniCam
单图像输入无法实现相机控制基于视频生成的方法难以区分相机角度变化与主体运动。基于重建的方法通常需要多视角信息。现有方法在连续复杂操作中难以保持空间结构,导致失真。缺乏通用数据集:现有数据集(如RealEstate)缺乏多模态支持与多样化轨迹控制。交互成本高且模态受限:现有方法仅支持有限输入模态(如单一文本或视频),且控制能力不足(如长序列、复合运动)。首个多模态相机控制框架:统一文本、视频、图像输入,解决模态割裂问题。OmniTr数据集:填补多模态长序列轨迹数据的空白。6DoF长序列控制。原创 2025-04-13 10:13:45 · 1234 阅读 · 0 评论 -
颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。原创 2025-03-10 07:40:44 · 1024 阅读 · 0 评论 -
CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。原创 2025-03-10 07:37:18 · 1142 阅读 · 0 评论 -
CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出“时空大脑“
多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。原创 2025-03-04 07:52:48 · 1257 阅读 · 0 评论 -
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。原创 2025-02-16 17:09:27 · 1978 阅读 · 0 评论 -
12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X:7B具身多模态动作模型
传统的基于强化学习的机器人控制方法通常是任务特定的,无法在不同环境或未见过的物体和指令中进行有效推广。尽管视觉语言模型(VLMs)在场景理解和任务规划上表现出色,但它们缺乏生成适用于特定机器人形态的可操作策略的能力。此外,现有的视觉语言行动(VLA)模型在长时间跨度的空间推理和基于实际任务的规划中存在挑战,尤其是在处理复杂任务和模糊指令时。原创 2024-12-26 22:45:49 · 1325 阅读 · 0 评论 -
超越VALOR,LLP上最新SOTA!MM-CSE:视听视频解析新方案!
视听视频解析(AVVP)任务需要识别并定位音频、视觉及音视频事件,现有方法通过整体特征进行模态内和跨模态时序建模,但存在语义混杂模态内干扰:在相同模态内与其他段落进行时序交互时,会引入不相关事件的语义。跨模态干扰:在不同模态间交互时,与部分相似或完全不同事件的段落交互时,容易引入无关语义。原创 2024-12-24 08:44:10 · 867 阅读 · 0 评论 -
比Janus更强!15M数据实现颠覆性统一多模态大模型!华为诺亚提出ILLUME
多模态统一建模挑战:如何在单一的大语言模型中无缝融合多模态理解和生成能力。数据效率问题:减少图文对齐所需的大规模数据集,降低训练成本。多模态协同增强不足:现有模型在多模态理解和生成能力的协同提升方面探索有限。原创 2024-12-16 23:04:10 · 1245 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2648 阅读 · 0 评论 -
VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
解决的问题当前视觉语言模型(VLMs)在处理复杂的视觉问答任务时,系统性和结构化推理能力较弱,尤其在多阶段推理任务中表现不佳。提出的方案引入LLaVA-o1,一个新型 VLM,采用自主的多阶段推理策略。与链式思维(chain-of-thought)提示不同,LLaVA-o1 将推理分为以下独立阶段:总结、视觉解释、逻辑推理和结论生成。应用的技术构建 LLaVA-o1-100k 数据集,整合多种视觉问答数据来源,提供结构化推理标注。原创 2024-11-19 08:51:52 · 2219 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 1252 阅读 · 0 评论 -
矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI
引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。原创 2024-10-20 22:31:25 · 1312 阅读 · 0 评论 -
详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)
在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。原创 2024-10-11 08:27:28 · 5881 阅读 · 0 评论 -
从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述
文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时间信息的连续帧,而长视频则由多个事件组成,涉及事件之间和长期的时间信息。原创 2024-10-09 23:45:13 · 3670 阅读 · 4 评论
分享