训练数据相关
-
OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models (https://arxiv.org/abs/2507.19262)
这篇论文提出了一个名为OV-Fact的新方法,用于评估长文本图像描述的真实性。该方法利用开放词汇视觉定位和工具辅助验证,无需人工标注。研究表明,使用OVFact过滤后的数据集进行训练可以显著提高生成描述的真实性,同时保持描述的丰富性。 -
Do Existing Testing Tools Really Uncover Gender Bias in Text-to-Image Models? (https://arxiv.org/abs/2501.15775)
该研究通过人工标注的数据集,验证了现有的文本到图像模型性别偏见检测器,发现这些检测器并不能完全捕捉到模型中实际存在的偏见,有时甚至会高估偏见。该研究揭示了现有检测器的局限性,并提出了一种改进的检测器。 -
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation (https://arxiv.org/abs/2501.12612)
这篇论文提出了一个名为T2ISafety的基准,用于评估文本到图像模型在毒性、公平性和隐私方面的安全性。该基准包含一个详细的任务和类别体系,以及7万个提示词。研究发现,即使是超大型专有模型,在种族公平性和隐私保护方面仍然存在问题。 -
Long-Form Answers to Visual Questions from Blind and Low Vision People (https://arxiv.org/abs/2408.06303)
该研究构建了一个名为VizWiz-LF的数据集,包含盲人和低视力用户提出的视觉问题及其长篇答案。分析表明,长篇答案包含问题答案之外的解释和建议等信息。评估发现,生成的长篇答案容易出现视觉细节上的幻觉,特别是在无法回答的视觉问题上。
训练策略
-
MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster (https://arxiv.org/abs/2507.19017)
该论文介绍了一个名为MindSpeed RL的系统,用于大规模强化学习训练。该系统通过分布式数据流的方式,优化了样本流和重分片流,提高了集群的可扩展性和内存利用率。实验表明,MindSpeed RL在Qwen2.5和DeepSeek等大型模型的强化学习训练中,吞吐量提高了1.42到3.97倍。 -
Negation-Aware Test-Time Adaptation for Vision-Language Models (https://arxiv.org/abs/2507.19064)
该论文研究了视觉语言模型(VLM)中的否定理解问题,并提出了一种名为NEAT的否定感知测试时自适应方法。该方法通过调整推理过程中的分布相关参数,有效地处理了否定分布中的概念转移问题。实验表明,该方法在各种否定理解任务中都表现出良好的效果。 -
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings (https://arxiv.org/abs/2411.19628)
该论文通过对多模态大语言模型(MLLM)的注意力行为进行深入的经验研究,揭示了MLLM中视觉tokens的冗余现象。基于这些观察,作者提出了一种动态视觉tokens退出(DyVTE)方法,通过轻量级的超网络来感知文本token的状态,并在特定层之后移除所有视觉tokens,从而提高MLLM的效率。
大模型的行业应用
-
BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving (https://arxiv.org/abs/2507.19370)
该论文介绍了一种名为BEV-LLM的轻量级模型,用于自动驾驶场景的3D描述生成。BEV-LLM利用BEVFusion融合3D激光雷达点云和多视角图像,并结合一种新颖的绝对位置编码来生成视角特定的场景描述。该模型在nuCaption数据集上取得了有竞争力的性能。 -
iPLAN: Redefining Indoor Wireless Network Planning Through Large Language Models (https://arxiv.org/abs/2507.19096)
该论文提出了一种基于大型语言模型(LLM)的室内无线网络规划框架iPLAN,该框架将多模态室内环境表示集成到LLM驱动的优化器中,以改进室内无线网络规划。仿真结果表明,iPLAN在室内无线网络规划任务中表现出卓越的性能,并通过室内环境和无线网络的联合设计优化了建筑物的无线性能。 -
RemoteReasoner: Towards Unifying Geospatial Reasoning Workflow (https://arxiv.org/abs/2507.19280)
该论文旨在构建一个地球观测工作流,通过推理空间上下文和用户意图来处理复杂查询。作者提出了RemoteReasoner,一个灵活且强大的遥感推理工作流,它集成了多模态大语言模型(MLLM)来解释用户指令和定位目标,以及任务适应策略来实现多粒度输出生成。 -
Enhancing Speech Emotion Recognition Leveraging Aligning Timestamps of ASR Transcripts and Speaker Diarization (https://arxiv.org/abs/2507.19356)
该论文研究了将自动语音识别(ASR)转录和说话人分割(SD)输出的时间戳对齐对语音情感识别(SER)准确性的影响。作者提出了一种对齐管道,利用预训练的ASR和说话人分割模型,系统地同步时间戳以生成准确标记的说话人片段。实验结果表明,精确的时间戳对齐提高了SER的准确性。 -
Advancing biomolecular understanding and design following human instructions (https://arxiv.org/abs/2410.07919)
该论文介绍了一种名为InstructBioMol的大语言模型,旨在通过对自然语言、分子和蛋白质进行全面的任意到任意对齐,来连接自然语言和生物分子。该模型可以整合多模态生物分子作为输入,并使研究人员能够用自然语言表达设计目标,提供满足精确生物需求的生物分子输出。 -
ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation (https://arxiv.org/abs/2507.18262)
该论文提出了一种名为ReSem3D的统一操作框架,用于语义多样化的环境,利用视觉基础模型(VFM)和多模态大型语言模型(MLLM)之间的协同作用来实现细粒度的视觉基础和动态构建用于实时操作的分层3D空间约束。 -
CXR-CML: Improved zero-shot classification of long-tailed multi-label diseases in Chest X-Rays (https://arxiv.org/abs/2507.19398)
这篇论文提出了一种新的方法,通过类加权机制来改善胸部X光片中长尾多标签疾病的零样本分类。
底层模型架构 -
Modality Agnostic Efficient Long Range Encoder (https://arxiv.org/abs/2507.19409)
该论文提出了一种名为MAELRE (Modality Agnostic Efficient Long Range Encoder) 的统一高效Transformer架构,旨在降低长序列处理的计算和内存复杂度。MAELRE集成了token merging与attention approximation,在不同阶段逐步合并tokens。实验表明,MAELRE在跨多种模态的分类任务中,与现有的长上下文模型相比,实现了更高的准确率,同时降低了计算成本。 -
Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding (https://arxiv.org/abs/2507.19427)
该论文介绍了一个名为Step-3的321B参数VLM,通过硬件感知的模型-系统协同设计来优化解码成本。Step-3创新性地提出了Multi-Matrix Factorization Attention (MFA)机制,显著降低了KV缓存大小和计算量,同时保持了高注意力表达能力。此外,Attention-FFN Disaggregation (AFD)系统将注意力层和前馈网络(FFN)层解耦到专门的子系统中。
文生图/文生视频
-
Preserve Anything: Controllable Image Synthesis with Object Preservation (https://arxiv.org/abs/2506.22531)
该论文介绍了一种名为"Preserve Anything"的新方法,用于可控的图像合成,解决了文本到图像生成中对象保留和语义一致性的关键限制。该方法采用N通道ControlNet,集成了对象保留、语义一致的背景生成和显式的用户控制。 -
GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing (https://arxiv.org/abs/2505.11493)
该论文提出了一个新的基准,用于评估文本引导的图像编辑模型,该基准旨在以一种更具实际意义的方式评估模型,主要关注功能正确性以及图像内容保留。 -
FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation (https://arxiv.org/abs/2408.00998)
该论文贡献了一种新颖、简洁和高效的方法,该方法以即插即用的方式将预训练的大型文本到图像(T2I)扩散模型适配到图像到图像(I2I)范例,从而实现高质量和通用的文本驱动的I2I转换,而无需任何模型训练、模型微调或在线优化过程。
多模态学习
-
Closing the Modality Gap for Mixed Modality Search (https://arxiv.org/abs/2507.19054)
本文研究了对比视觉语言模型(如CLIP)在混合模态搜索任务中的表现,发现这些模型在嵌入空间中存在明显的模态差距,导致内模态排序偏差和跨模态融合失败。为解决这个问题,作者提出了一种轻量级的后校准方法GR-CLIP,它可以消除CLIP嵌入空间中的模态差距。 -
SimMLM: A Simple Framework for Multi-modal Learning with Missing Modality (https://arxiv.org/abs/2507.19264)
这篇论文提出了一个简单而强大的框架SimMLM,用于处理模态缺失的多模态学习。SimMLM包含一个通用的动态模态专家混合(DMoME)架构,具有动态、可学习的门控机制,可以自动调整每种模态在完整和部分模态设置中的贡献。 -
LISA: A Layer-wise Integration and Suppression Approach for Hallucination Mitigation in Multimodal Large Language Models (https://arxiv.org/abs/2507.19110)
该论文提出了一种名为LISA的分层集成和抑制方法,旨在缓解多模态大型语言模型(MLLM)中的对象幻觉问题。LISA利用MLLM中的功能层次结构,通过区域特定的频谱调制和token级别的logit融合来增强生成一致性。 -
MLLM-based Speech Recognition: When and How is Multimodality Beneficial? (https://arxiv.org/abs/2507.19037)
该论文研究了在噪声环境下,多种输入模态在何种条件下以及如何能够提高基于多模态大型语言模型(MLLM)的自动语音识别(ASR)的准确性。实验结果表明,利用更多的模态通常可以提高ASR的准确性,但这种改进取决于听觉噪声的大小。 -
A Survey of Multimodal Hallucination Evaluation and Detection (https://arxiv.org/abs/2507.19024)
该论文对多模态大型语言模型(MLLM)中的幻觉评估基准和检测方法进行了深入的回顾,涵盖了图像到文本(I2T)和文本到图像(T2I)生成任务。论文提出了一个基于忠实性和事实性的幻觉分类法,并总结了现有幻觉评估基准和检测方法的局限性,并概述了未来研究的潜在方向。
其他
-
LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences (https://arxiv.org/abs/2507.19362)
该论文介绍了LOTUS,一个用于评估详细图像描述的排行榜,解决了现有评估中缺乏标准化标准、偏见感知评估和用户偏好考虑等问题。 -
SpeechIQ: Speech Intelligence Quotient Across Cognitive Levels in Voice Understanding Large Language Models (https://arxiv.org/abs/2507.19361)
该论文提出了语音智能商数(SIQ)作为一种新的评估流水线,旨在评估语音理解大型语言模型(LLM Voice)的语音理解能力。SIQ从布鲁姆分类法的三个认知水平考察LLM Voice:记忆、理解和应用。 -
PRE-MAP: Personalized Reinforced Eye-tracking Multimodal LLM for High-Resolution Multi-Attribute Point Prediction (https://arxiv.org/abs/2507.19213)
该论文提出了一种新颖的眼动追踪显着性模型PRE-MAP,该模型通过强化学习优化的眼动追踪来表征个性化的视觉差异,该眼动追踪建立在MLLM之上,并由多属性用户配置文件引导来预测点。 -
Towards Multimodal Social Conversations with Robots: Using Vision-Language Models (https://arxiv.org/abs/2507.19196)
该论文概述了社交机器人进行多模式社交对话的总体需求,并认为视觉语言模型能够以足够通用的方式处理各种视觉信息,以实现自主社交机器人。 -
All in One: Visual-Description-Guided Unified Point Cloud Segmentation (https://arxiv.org/abs/2507.05211)
该论文提出了一种新颖的框架VDG-Uni3DSeg,该框架集成了预训练的视觉语言模型(例如CLIP)和大型语言模型(LLM)以增强3D分割。
编辑精选
- Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding (https://arxiv.org/abs/2507.19427):该论文通过模型系统协同设计降低大模型的解码成本,具有重要的工程价值和实际意义。
- MindSpeed RL: Distributed Dataflow for Scalable and Efficient RL Training on Ascend NPU Cluster (https://arxiv.org/abs/2507.19017):该论文介绍的MindSpeed RL系统解决了大规模强化学习训练中的可扩展性和内存利用率问题,对于训练大型模型具有重要意义。
- OVFact: Measuring and Improving Open-Vocabulary Factuality for Long Caption Models (https://arxiv.org/abs/2507.19262):该论文提出的OV-Fact方法可以有效评估和提高长文本图像描述的真实性,对于提高视觉语言模型的可靠性具有重要作用。
- BEV-LLM: Leveraging Multimodal BEV Maps for Scene Captioning in Autonomous Driving (https://arxiv.org/abs/2507.19370):将大模型应用于自动驾驶场景理解,生成环境描述,对提高自动驾驶系统的可解释性有价值。
- ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation (https://arxiv.org/abs/2507.18262):该论文的研究结果对于机器人操作任务具有重要的指导意义。