
多模态
文章平均质量分 92
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
颠覆认知!多模态模型思维链评估白皮书:反思机制成胜负手,感知任务竟被CoT拖后腿
论文:https://arxiv.org/pdf/2502.09621主页:https://mmecot.github.io代码:https://github.com/CaraJ7/MME-CoT数据集:https://huggingface.co/datasets/CaraJ/MME-CoT亮点直击精心策划了 MME-CoT 基准,涵盖了六种多模态推理场景的综合范围。数据收集和注释过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。原创 2025-03-10 07:40:44 · 709 阅读 · 0 评论 -
CVPR 2025 | 数据荒漠终结者!DoraCycle跨模态自循环算法:让生成不再依赖配对数据
复杂领域适应性问题:生成模型在适应复杂领域时,通常需要大量成对的文本-图像数据,但这类数据难以获取且成本高昂。无配对数据的利用:现有的生成模型难以有效利用单模态(如视觉或语言)的无配对数据进行领域适应。跨模态对齐的挑战:在无配对数据的情况下,如何实现视觉和语言之间的跨模态对齐,以支持生成模型的领域适应。原创 2025-03-10 07:37:18 · 871 阅读 · 0 评论 -
CVPR 2025 | 多模态六边形战士Magma:会点按钮会搬砖,标注竟让AI长出“时空大脑“
多模态理解与行动的分离:现有的视觉-语言-行动(VLA)模型通常在特定任务上表现良好,但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略,而牺牲了通用的多模态理解能力。环境差异带来的挑战:2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练,难以在多个环境中通用。数据集之间的差距:多模态理解(主要是文本描述)与行动任务(主要是空间坐标)之间存在显著差距,导致直接结合数据集难以提升模型性能。一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。原创 2025-03-04 07:52:48 · 926 阅读 · 0 评论 -
多模态大语言模型(MLLMs)如何重塑和变革计算机视觉?
简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如 GPT-3 [2] 或 LLaMA-3 [3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。图 1 展示了一个医疗领域的多模态 AI 系统 [4]。它接收两个输入:一张医学影像一个文本查询,如:“这张影像中是否存在胸腔积液?该系统输出一个关于该查询的预测答案。在本文中,可能会简化“多模态大型语言模型”这一术语,直接称其为“多模态模型”。原创 2025-02-16 17:09:27 · 1461 阅读 · 0 评论 -
12个真实世界机器人任务成功率超OpenVLA 24.17% | EMMA-X:7B具身多模态动作模型
传统的基于强化学习的机器人控制方法通常是任务特定的,无法在不同环境或未见过的物体和指令中进行有效推广。尽管视觉语言模型(VLMs)在场景理解和任务规划上表现出色,但它们缺乏生成适用于特定机器人形态的可操作策略的能力。此外,现有的视觉语言行动(VLA)模型在长时间跨度的空间推理和基于实际任务的规划中存在挑战,尤其是在处理复杂任务和模糊指令时。原创 2024-12-26 22:45:49 · 1044 阅读 · 0 评论 -
超越VALOR,LLP上最新SOTA!MM-CSE:视听视频解析新方案!
视听视频解析(AVVP)任务需要识别并定位音频、视觉及音视频事件,现有方法通过整体特征进行模态内和跨模态时序建模,但存在语义混杂模态内干扰:在相同模态内与其他段落进行时序交互时,会引入不相关事件的语义。跨模态干扰:在不同模态间交互时,与部分相似或完全不同事件的段落交互时,容易引入无关语义。原创 2024-12-24 08:44:10 · 759 阅读 · 0 评论 -
比Janus更强!15M数据实现颠覆性统一多模态大模型!华为诺亚提出ILLUME
多模态统一建模挑战:如何在单一的大语言模型中无缝融合多模态理解和生成能力。数据效率问题:减少图文对齐所需的大规模数据集,降低训练成本。多模态协同增强不足:现有模型在多模态理解和生成能力的协同提升方面探索有限。原创 2024-12-16 23:04:10 · 1038 阅读 · 0 评论 -
自回归和Rectified Flow完美融合统一多模态理解和生成!DeepSeek&北大等开源JanusFlow
当前图像理解与生成任务通常由专门的模型完成,统一模型在性能和效率上仍然存在局限性,难以在两个领域中同时达到优异表现。原创 2024-11-20 13:06:38 · 2238 阅读 · 0 评论 -
VLM版o1超越一众开源和闭源模型!LLaVA-o1:多阶段自主推理(北大&清华&阿里等)
解决的问题当前视觉语言模型(VLMs)在处理复杂的视觉问答任务时,系统性和结构化推理能力较弱,尤其在多阶段推理任务中表现不佳。提出的方案引入LLaVA-o1,一个新型 VLM,采用自主的多阶段推理策略。与链式思维(chain-of-thought)提示不同,LLaVA-o1 将推理分为以下独立阶段:总结、视觉解释、逻辑推理和结论生成。应用的技术构建 LLaVA-o1-100k 数据集,整合多种视觉问答数据来源,提供结构化推理标注。原创 2024-11-19 08:51:52 · 1994 阅读 · 0 评论 -
统一多模态大模型!PUMA:多粒度策略笑傲图像生成、编辑、修复、着色和条件图像生成和理解六大任务
解决的问题现有的多模态大模型(MLLMs)在视觉内容生成方面没有充分解决不同图像生成任务对粒度的需求差异,尤其是从文本到图像生成的多样性需求以及图像编辑中的精确可控性。提出的方案提出了一种名为PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)的模型,旨在通过统一多粒度视觉特征作为MLLMs的输入和输出,优雅地解决不同任务的粒度需求。应用的技术。原创 2024-10-24 21:21:15 · 1025 阅读 · 0 评论 -
矛盾之争,AI合成数据可以骗过大模型吗?中山大学联合上海AI Lab提出合成检测基准LOKI
引入了LOKI基准,以全面评估LMMs在区分合成数据上的表现。全面模态评估。收集了近期热门合成模型生成的高质量多模态数据,涵盖视频,图像,3D数据,文本,音频等多个模态。异构数据覆盖。数据集中包括28个不同模态的细致分类,包括有专业的卫星,医学等图像,哲学,文言文等文本作品,环境音,音乐等音频。多层次标注。基准包括了生成/真实标签,可用于判断题,多选题等基础问题设置。还包含了细粒度异常注释,可用于原因解释等探究LMMs在可解释合成数据检测方面的题目。多模态合成数据评测框架。原创 2024-10-20 22:31:25 · 1183 阅读 · 0 评论 -
详解大规模基础模型中的幻觉问题(幻觉检测、缓解、任务、数据集和评估指标)
在大规模基础模型中,幻觉输出的生成是一个关键挑战,特别是在高风险应用中。这种倾向可能影响模型的可靠性和准确性。原创 2024-10-11 08:27:28 · 3289 阅读 · 0 评论 -
从秒级到小时级:TikTok等发布首篇面向长视频理解的多模态大语言模型全面综述
文章链接:https://arxiv.org/pdf/2409.18938将大语言模型(LLMs)与视觉编码器的集成最近在视觉理解任务中显示出良好的性能,利用它们理解和生成类人文本的固有能力进行视觉推理。考虑到视觉数据的多样性,多模态大语言模型(MM-LLMs)在图像、短视频和长视频理解的模型设计和训练上存在差异。本论文集中讨论长视频理解与静态图像和短视频理解之间的显著差异和独特挑战。与静态图像不同,短视频包含具有空间和事件内时间信息的连续帧,而长视频则由多个事件组成,涉及事件之间和长期的时间信息。原创 2024-10-09 23:45:13 · 2909 阅读 · 4 评论