- 博客(54)
- 收藏
- 关注
原创 Zero-Shot Image Captioning with Multi-type Entity Representations(AAAI 2025)
本文提出MERCap方法,一种零样本图像字幕生成模型,通过多类型实体检索提升生成质量。该方法创新性地采用文本CLIP表示加高斯噪声模拟图像表示,训练GPT-2模型结合实体提示和CLIP软提示重构文本。核心贡献包括:1)构建特定领域实体集并采用对比学习优化表示向量;2)双阶段训练机制(纯文本预训练+零样本推理);3)引入域内外实体检索策略。实验表明,该方法通过增强实体表示与图像的对齐,显著提高了生成准确性,尤其在提供正确实体时效果更优。相比传统方法,MERCap有效减少了无关内容生成,为无配对数据场景下的图像
2025-12-23 16:53:38
893
原创 BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs(CVPR 2025)
本文提出BACON方法,通过结构化拆解VLM生成的长caption,将其分解为独立的对象、关系和风格等元素。该方法解决了传统长caption导致的信息纠缠问题,通过单元化描述提升下游模型(如GroundingDINO/SDXL)的视觉对齐能力。BACON包含总体描述、详细对象列表和关系三部分,采用特殊格式转换和上下文学习技术生成结构化描述。实验表明,该方法能增强VLM注意力集中度,并开发了LLAVA(BACON)-CAPTIONER模型和10.3万张图的ECO数据集。通过结合VLM和定位模型,显著提升了检测
2025-12-19 16:34:18
490
原创 SynC(ACM Multimedia 2025)
本文提出SynC框架,用于改进零样本图像字幕生成中的合成数据集质量。与传统方法不同,SynC采用一对多映射策略:首先为每个标题检索多个候选图像,然后通过循环一致性评分机制选择最佳匹配。该方法包含三个关键步骤:候选图像选择、多模态对齐评分和数据集精炼。评分过程利用图像到文本检索能力验证原始标题的匹配度,最终生成由合成图像、标题和对齐分数组成的三元组数据集。该方法避免了直接修改标题,而是通过重新分配图像-标题对来提高数据集质量。
2025-12-17 21:32:36
300
原创 Knowledge Completes the Vision(AAAI 2026)
本文提出MERGE框架,首个针对新闻图片标题的多模态实体感知检索增强生成方法。该框架包含三个创新组件:1)构建实体中心的多模态知识库(EMKB),整合文本、视觉和结构化知识;2)采用假设性字幕引导的三阶段思维链机制实现细粒度跨模态对齐;3)通过检索驱动的多模态知识整合实现精确视觉-实体匹配。实验表明,MERGE能有效补充缺失细节,提升标题生成质量。该方法通过动态构建知识图谱和分阶段对齐策略,显著改善了新闻图片描述的准确性和丰富性。
2025-12-16 21:43:02
695
原创 Perceive Anything: Recognize,Explain,Caption,and Segment Anything in Images and Videos(NeurIPS 2025)
上图感知万物模型(PAM):接受各种视觉提示(如点击、框和掩码)来生成图像和视频的区域特定信息,包括掩码、类别、标签定义、上下文功能和详细标题。本文提出感知万物模型(PAM),一个概念上直接且高效的框架,用于在图像和视频中进行全面的区域级视觉理解。方法通过集成大型语言模型(LLMs),扩展了强大的分割模型SAM 2,实现同时进行对象分割并生成多样的、区域特定的语义输出,包括类别、标签定义、功能解释和详细标题。
2025-12-14 16:36:18
357
原创 RETHINKING VISUAL INFORMATION PROCESSING IN MULTIMODAL LLMS
本文提出LLaViT模型,通过三项关键改进使LLM同时具备视觉编码能力:(1)为视觉模态设计独立QKV投影参数;(2)实现视觉标记的双向注意力机制;(3)融合CLIP模型的全局和局部视觉特征。实验表明,虽然输入层视觉标记与文本词向量相似度低,但LLM能将其转换为语义相关的文本输出,验证了LLM内部视觉-文本转换的有效性。该方法突破了传统LLM仅处理文本的限制,使其成为强大的多模态编码器。
2025-12-10 20:44:31
260
原创 PixCLIP:通过任意粒度像素-文本对齐学习实现细粒度视觉语言理解
《PixCLIP:通过任意粒度像素-文本对齐学习实现细粒度视觉语言理解》提出了一种提升CLIP模型细粒度对齐能力的新方法。研究团队构建了LongGRIT数据集(含150万样本),通过三阶段流程生成像素级文本描述:物体级属性描述、上下文位置关系描述,最终合成细粒度表达。模型采用三分支架构,结合掩码patch嵌入层和LLM文本编码器,通过全局图像-文本对齐、局部掩码-文本对齐和多尺度特征增强三种策略,实现了任意粒度下的视觉-文本对齐。实验表明该方法显著提升了细粒度理解能力。
2025-12-08 21:58:21
826
原创 CAPRL: stimulating dense image caption capabilities via reinforcement learning
本文提出CapRL框架,通过强化学习改进图像描述生成质量。针对传统监督微调方法成本高、泛化性差的问题,以及强化学习中奖励设计主观性强的挑战,CapRL创新性地将描述质量定义为"使非视觉LLM准确回答图像相关问题的能力"。该方法采用两阶段流程:LVLM生成描述后,由独立LLM基于描述回答多项选择题,准确率作为客观奖励。研究还开发了专门的三阶段QA数据筛选流程,确保问题严格基于视觉内容。实验表明,CapRL能有效提升描述质量,避免传统方法的主观偏好问题。
2025-12-02 11:57:10
762
原创 Your Large Vision-Language Model Only Needs A Few Attention Heads For Visual Grounding(CVPR 2025)
摘要: 本文提出一种基于冻结大型视觉语言模型(LVLM)的免训练视觉定位方法。研究发现,LVLM中仅少数注意力头(定位头)能有效捕捉与文本相关的图像区域。通过设计注意力总和与空间熵标准筛选定位头,并利用其注意力图生成目标对象的伪掩码。实验表明,仅需3个定位头即可实现与微调方法相当的定位性能,且与真实掩码IoU显著相关(Spearman系数>0.7)。该方法无需微调,直接利用LVLM隐含的文本-图像关联能力,为视觉定位任务提供了高效解决方案。
2025-11-29 20:54:40
1055
原创 Depth Anything 3:Recovering the Visual Space from Any Views(字节跳动推出的最新深度估计模型)
本文提出DepthAnythingV3(DA3)模型,通过简洁的Transformer架构实现多视角3D几何恢复。DA3采用单个DINO编码器作为骨干网络,使用深度-光线表示法预测目标,避免复杂多任务学习。模型包含三部分:Transformer骨干网络、可选相机编码器和双DPT解码头,支持处理任意视图输入。采用教师-学生训练范式,先在合成数据训练教师模型生成伪标签,再用其监督学生模型学习。该方法实现了与DepthAnything2相当的细节和泛化能力,同时建立了新的视觉几何基准测试。
2025-11-18 17:18:30
947
原创 Search and Detect: Training-Free Long Tail Object Detection via Web-Image Retrieval(CVPR 2025)
本文提出SearchDet框架,一种无需训练的开放词汇目标检测方法。通过检索网络图像构建正负样本库,利用注意力加权和对比学习生成增强的查询语义向量。结合SAM分割候选和基于patch的相似度热图,经统计验证和融合处理,实现精确的目标定位,包括掩码、边界框和位置。创新性地使用LLM生成负查询词获取负样本,并通过热图与分割掩码互补提升检测效果。该方法在长尾分布场景下展现出优越性能。
2025-11-16 21:18:10
144
原创 Identifying and Mitigating Position Bias of Multi-image Vision-Language Models(CVPR 2025)
摘要:本文针对大型视觉语言模型(LVLMs)在多图像推理中存在的位置偏见问题,提出了一种无需训练的SoFT注意力(SoFA)方法。研究发现,仅改变图像输入顺序就会显著影响LVLMs的预测准确性。通过设计位置问答(PQA)任务,发现开源模型对后置图像表现更好,专有模型则对首尾图像理解更佳。SoFA方法通过在线性插值图像间的因果注意力和双向注意力之间取得平衡,有效减轻了位置偏见。实验表明,该方法在保持性能的同时显著改善了模型的推理公平性,特别适用于需要均衡处理多图像输入的视觉语言任务。
2025-11-13 20:21:52
953
1
原创 Perception Tokens Enhance Visual Reasoning in Multi- modal Language Models(CVPR 2025)
本文提出通过引入感知token来增强多模态语言模型(MLMs)的视觉推理能力。感知token作为中间视觉表征(如深度图、边界框等),可辅助模型进行类似思维链的推理。作者开发了AURORA训练方法:(1)使用VQVAE将视觉特征转化为感知token;(2)结合蒸馏损失和重构损失训练token预测;(3)采用渐进式课程学习,从基础任务逐步过渡到多步推理任务。实验表明,该方法显著提升了LLaVA模型在深度估计、计数等细节导向任务上的表现。
2025-11-09 20:29:26
1058
原创 CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era
本文研究了视觉语言模型(VLM)在图像字幕生成中的表现与评估方法。通过构建CapArena平台(含6000+人工标注)评估14种VLM在精确性、信息性和抗幻觉方面的表现,发现现有模型与人类水平仍有差距。同时系统分析了传统与新型评估指标与人类偏好的相关性,并提出自动化基准CapArena-Auto(600样本),采用成对对战评估范式以提高可靠性。研究为提升VLM生成详细字幕能力提供了新的评估框架和基准测试工具。
2025-11-04 15:26:26
334
原创 Learning 3D-aware Image Representations from Spatially Discriminative Language(CVPR 2025)
《SpatialCLIP: 基于空间判别性语言学习的3D感知图像表征方法》提出了一种增强CLIP模型空间理解能力的新框架。该研究通过改进视觉模型和语言监督两方面实现突破:在视觉侧,采用3D启发的ViT架构,通过深度信息将2D图像标记提升到3D空间,并整合3D卷积和相对位置编码;在语言监督侧,创新性地使用扰动空间短语的负面描述方法。此外,研究还构建了SpatialBench评估基准,并开发了SpatialLLaVA模型,实验证明其显著提升了空间感知能力。这些创新为图像描述任务中的空间关系理解提供了新思路。
2025-10-29 13:54:54
1077
原创 Removal of Hallucination on Hallucination: Debate-Augmented RAG(ACL 2025)
本文提出辩论增强的RAG(DRAG)框架,通过多智能体辩论机制提升检索增强生成的效果。在检索阶段,支持者、反对者和裁判通过结构化辩论优化查询质量;在生成阶段,采用非对称信息角色进行对抗性辩论,减少事实错误和幻觉。该方法通过多智能体验证增强推理鲁棒性,但会增加计算开销,且固定辩论轮次可能导致简单任务的效率降低。实验表明DRAG能有效提高检索可靠性和生成一致性。
2025-09-28 21:39:48
564
原创 Omni-Q: Omni-Directional Scene Understanding for Unsupervised Visual Grounding(CVPR 2024)
本文提出Omni-Q方法,通过3D空间关系模块和空间图模块实现无监督视觉定位。首先利用对象感知模块提取物体位置和描述;然后通过3D空间关系模块将2D表示扩展至3D,精确建模物体间空间关系;最后基于空间图模块构建语义丰富的区域查询对。该方法创新性地解耦了相对/绝对位置关系,并利用图结构增强空间关系表达能力,显著提升查询生成的准确性和多样性。实验表明,相比传统2D方法,该方案能更真实地反映物体三维空间关系,避免错误描述。
2025-09-26 15:32:33
644
原创 SURf: Teaching Large Vision-Language Models to Selectively Utilize Retrieved Information
本文提出了一个自我改进框架,旨在教会 LVLM 选择性地利用检索到的信息 (SURf)。给到LVLM主干无法正确回答的问题,获取有助于纠正答案的正面参考和未能纠正的负面参考;使用外部评估工具评估引入的图像-标题对的贡献,从而构建包含正面和负面样本的训练数据集;构建一个RAG指令数据集,进一步训练LVLMs,提高对无关检索内容的鲁棒性;通过结合正面和负面参考对LVLM主干进行微调,优化其选择性利用检索信息的能力。RAG由两个主要组件组成:检索器和生成器。检索器:从大型文档集合中获取相关信息;
2025-09-17 20:19:15
556
原创 Event-Aware Image Captioning with Article Retrieval andSemantic Gaussian Normalization(ACM MM 2025)
本文提出ReCap框架,通过多模态信息融合实现事件感知的图像描述生成。系统采用两阶段检索策略:先基于DINOv2全局特征初筛100篇候选文章,再通过块级互最近邻相似度重排序。随后整合三种上下文信息(通用视觉描述、网页配图文、AI生成摘要),输入Qwen3生成描述。创新性地引入语义高斯规范化器,通过长度调整、语义优化和实体增强,有效提升描述质量与CIDEr指标的对齐度。该方法在保持视觉准确性的同时,显著增强了描述的事件相关性和叙事丰富性。
2025-09-15 22:33:37
863
原创 EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations(ACL 2025)
本文提出EXPERT,一种基于视觉语言模型的无参考图像字幕评估指标。通过构建包含42,000+结构化解释的数据集(Polaris-exp和Nebula-exp),从流畅性、相关性和描述性三个维度规范解释生成。设计两阶段评估模板:先评分后解释,并采用LLaVA-1.5模型进行监督训练。方法解决了现有指标解释不一致和质量未验证的问题,通过人工评估验证了解释质量,最终实现兼具数字评分和结构化文本解释的可解释评估。
2025-09-15 11:22:34
622
原创 Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval(ACL 2025)
本文提出了一个多模态RAG系统OMGM,它采用由粗到细的多步骤检索策略,有效地协调跨查询和知识库的多个粒度和模式,从而增强多模态检索的效果。如上图所示,系统分为三个阶段运作:首先在实体摘要和查询图像之间执行粗粒度跨模态实体搜索,以检索前 k 个候选实体;接着使用混合粒度多模态融合重排序器使用多模态查询检索图像-片段对,从而优化最相关实体的选择;最终,使用细粒度的文本重排器筛选出选定实体的各个部分,以提取最相关的部分用于增强响应生成。离线为知识库中所有实体文章生成摘要。实体文章,利用一个预训练的语言模型。
2025-09-09 22:16:56
716
原创 Mitigating Hallucination in Large Vision-Language Models by Interaction Guidance Sampling(ICCV 2025)
本文提出INTER算法,通过交互引导采样减轻视觉语言模型(LVLM)的幻觉问题。该算法包含交互引导定位器(基于方差过滤关键标记)和交互概率修改器(利用多模态交互修正采样概率),无需训练即可提升生成准确性。实验表明,INTER在CHAIR等评测基准上显著降低幻觉率。核心见解包括:1)LVLM隐式利用多模态交互;2)交互理解集中于关键标记;3)强交互提升准确性。该方法将推理过程建模为博弈论问题,利用哈萨尼股息量化多模态交互贡献,通过修正采样策略增强图文一致性。
2025-09-08 22:00:50
934
原创 speculative RAG: enhancing retrieval augmented generation through drafting(ICLR 2025)
本文提出了一种推测式检索增强生成(RAG)框架,通过小型专业模型与大型通用模型的协同工作提升知识密集型任务的性能。该方法首先对检索文档进行多视角聚类,由指令微调的RAG-drafter模型并行生成多个答案草稿及理由,再通过通用RAG-verifier模型基于草稿质量筛选最优答案。相比传统RAG方法,该框架显著降低了输入标记数量和处理延迟,同时通过多视角分析减少了立场偏见,在保持准确率的同时提高了效率。实验表明,这种方法在多项知识问答任务中优于标准RAG、自我反思RAG和校正RAG等基线模型。
2025-09-07 18:04:08
988
原创 Fuzzy Multimodal Learning for Trusted Cross-modal Retrieval(CVPR 2025)
本文提出模糊多模态学习(FUME)框架,用于量化跨模态检索中的不确定性。通过模糊集合理论建模样本类别可信度,并设计标签引导的损失函数避免错误优化。结合跨模态对比损失增强语义对齐,最终融合双模态不确定性评估检索结果可信度。相比传统确定性方法,FUME能识别潜在不可靠的检索结果,为跨模态检索提供可靠性评估。
2025-08-28 19:20:48
896
原创 ViLU: Learning Vision-Language Uncertainties for Failure Prediction
本文提出ViLU框架,用于视觉语言模型(VLMs)的不确定性量化(UQ)与故障检测。针对传统最大概念匹配(MCM)方法在模糊概念下易产生高置信度错误的问题,ViLU通过分析视觉嵌入、文本嵌入及跨模态交互,构建全局不确定性表征。该框架采用事后处理方法,不修改模型内部结构,将故障预测建模为二元分类任务,使用加权交叉熵损失区分正确/错误预测。ViLU同时支持图像-标签和图像-字幕两类任务,适用于标准分类和开放域图文匹配场景,为VLM的可靠性评估提供了有效解决方案。
2025-08-24 20:55:38
400
原创 RORPCAP: retrieval-based objects and relations prompt for image captioning
本文提出RORPCap模型,一种基于检索的对象与关系提示方法用于图片标题生成。该方法通过OREM提取图像中的关键对象和关系词,结合CLIP视觉特征和Mamba映射网络构建视觉-文本嵌入,再与提示嵌入拼接形成前缀输入GPT-2生成描述。相比传统检测器与GCN方法,RORPCap实现了相当性能但训练时间更短。实验表明,该方法能有效提取关键语义信息,并通过多模态融合生成准确描述。
2025-08-22 21:25:09
454
原创 Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning(CVPR 2025)
摘要:本文提出基于强化学习的Reasoner-Critic框架,用于提升视觉语言模型的推理可靠性。通过构建包含人工错误的数据集训练批评模型,结合Jaccard指数和规则奖励机制评估批评质量,采用DPO方法优化Critic。推理时,Reasoner生成答案后由Critic提供反馈并迭代优化输出。实验表明,该方法能有效降低错误率,提高推理路径的准确性和可靠性。关键创新包括视觉错误插入技术和文本提示的动态优化机制。
2025-08-17 21:00:39
711
原创 Enhancing MLLM with Knowledge and Visual Notes for Visual Question Answering(CVPR 2025)
【摘要】本文提出NoteMR框架,通过知识笔记和视觉笔记增强多模态大语言模型(MLLM)的视觉问答能力。针对现有方法存在的显性知识冗余和视觉特征捕捉不足问题,NoteMR首先从外部知识库检索相关信息生成知识笔记,过滤噪声并提取关键知识;然后利用跨模态注意力机制识别图像关键区域生成视觉笔记;最后整合两种笔记和原始输入生成候选答案,通过MLLM选择最优解。实验表明,该方法能有效提升模型推理能力,减轻幻觉现象。核心创新在于结合显性知识与模型隐性知识,并通过注意力机制增强细粒度感知。
2025-08-10 18:05:42
648
原创 Restoring Fragmentation Input in High-Resolution Large Vision-Language Models(CVPR 2025)
本文提出了HiRes-LLaVA,一个旨在高效处理任何大小的高分辨率输入的新颖框架,将全局-局部高分辨率细节融入大型语言模型(LVLMs)中,同时不改变原始的上下文和几何信息,有效解决了“上下文碎片化”的问题。以解决滑动窗口方法(将输入切分为统一的小块,每个小块都与视觉编码器的输入尺寸对齐)带来的将输入分割成多个部分,破坏了上下文的连续性等负面影响。
2025-08-03 21:06:51
925
原创 OPCap:Object-aware Prompting Captioning
本文提出了一种目标感知的提示策略(OPCap)来有效缓解对象幻觉现象。具体方法是使用预训练的对象检测器来识别图像中的关键对象标签及其空间信息。然后根据这些空间信息提取相应的图像区域,并将它们输入到属性预测器中以获取对象的属性。这些对象标签和属性与由图像编码器提取的特征结合后传递给解码器,增强了模型对图像上下文的理解。该方法主要包括四个步骤:图像编码、对象检测、属性预测和解码。通过将检测到的对象及其属性整合到字幕生成过程中,OPCap增强了模型对图像上下文的理解,而不依赖外部语言模型。
2025-07-30 18:29:40
386
原创 OneStage Reflective Chain-of-Thoughts for Training Free ZeroShot Composed Image Retrieval(CVPR 2025)
组合图像检索(CIR)旨在检索与参考图像密切相似的目标图像,同时整合用户指定的文本修改,从而更准确地捕捉用户意图。本文提出了一种新颖的无训练的单阶段方法,用于零样本组合图像检索(ZS-CIR)的单阶段反思思维链推理(OSrCIR),该方法采用多模态大型语言模型来保留必要的视觉信息在单阶段推理过程中进行改进,消除了两阶段方法中的信息丢失。我们的反思思维链框架通过将操纵意图与参考图像的上下文线索对齐来进一步提高解释准确性。给定一个参考图像和一个操作文本,ZS-CIR从图像数据库中检索出与。
2025-07-27 16:37:33
522
原创 Compositional Image Captioning Focusing on Wherever You Want at Any Granularity(CVPR 2025)
Attribute‑Aware Regional Captioning(属性感知区域描述)核心思想:不仅对图像中的某个局部区域(Region)进行检测和描述,还要显式捕捉该区域中对象的“属性”(Attributes),如颜色、材质、状态等Regional Dense Captioning(区域密集描述)核心思想:在一张图像上“密集”地生成多个区域的描述,目的是覆盖图中所有显著的语义单元(objects / events / stuff),每个区域都输出一段短语或句子。
2025-07-25 16:15:44
792
原创 DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning(ACCV 2024)
本文提出了DENEB,一种针对幻觉具有鲁棒性的监督式图像自动评估指标。结合了Sim-Vec Transformer机制,能够同时处理多个参考,从而高效捕捉图像、候选字幕和参考字幕之间的相似性。同时,为训练提出的指标,通过扩展Polaris数据集构建了Nebula数据集,将视觉多样性提高了三倍。图像字幕的自动评估指标可以大致分为四类:经典指标、无参考指标、伪多方面指标和多方面指标。经典指标[是基于n元组和/或场景图的传统方法。但与人类判断的相关性较低,
2025-07-15 19:05:58
711
原创 CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models(AAAI 2025)
本文引入了一种新的多模态思维链(CoMT)基准测试,同时具有多模态输入和多模态推理输出。并且评估了基于 CoMT 的各种 LVLM (大型视觉语言模型)和策略,揭示了当前方法的一些关键见解,包括其能力和局限性。当前的多模态条件推理基准测试仍然遵循传统范式,即读取多模态输入但只能产生单模态推理输出,缺乏综合的多模态推理输出,导致以下问题:1)缺少视觉操作:有效的多模态推理通常需要视觉操作,如上图(a)所示,传统方法可以用语言表示操作,例如“标记角度”,但它们无法执行视觉操作,省略了实际的图像处理过程。
2025-07-11 20:39:45
671
原创 ROD-MLLM: Towards More Reliable Object Detection in Multimodal LargeLanguage Models(CVPR 2025)
本文介绍了ROD-MLLM,一种利用自由形式语言进行可靠目标检测的新型MLLM。将基于语言的物体检测解耦为低级定位和高级理解,具体来说就是使用一个开放词汇检测器作为低级定位器,将其与用户的查询结合以获取候选物体,通过感兴趣区域对齐(ROI Align)提取后,局部物体特征被投影到语言空间,然后与全局视觉特征一起发送到大型语言模型。为了实现模型对自由形式描述检测能力的自由,还设计了一个自动化注释流程来构建基于语言的物体检测数据集ROD。
2025-07-10 15:21:38
1753
原创 Towards Zero-Shot Anomaly Detection and Reasoningwith Multimodal Large Language Models(CVPR 2025)
本文提出了“Anomaly-OneVision”(Anomaly-OV),这是首个专门针对零样本异常检测(ZASD)和推理的视觉助手。受到人类视觉检查行为的启发,Anomaly-OV利用“两次查看特征匹配”(LTFM)机制自适应地选择和强调异常的视觉标记。同时为了加速对视觉异常与推理的研究,还建立了首个视觉指令微调数据集Anomaly-Instruct-125k和评估基准VisA-D&R。
2025-07-06 17:51:53
1512
原创 Grounded-SAM(Zero-Shot图像目标检测与分割):手把手教环境配置及各个模块的基本使用教程
然后导入到Grounded-Segment-Anything-main目录下,在/GroundingDINO/groundingdino/util目录下找到get_tokenlizer.py文件,修改以下三处地方,text_encoder_type1换成我们本地存放 bert-base-uncased文件的路径。Grounded-SAM的作用是根据用户给定的提示(如点、框、文字提示等),在输入图像上生成高质量的二值分割掩码。关于其他项目的具体详情请看Grounded-SAM项目的。
2025-07-04 17:03:05
2163
10
原创 SegAgent(CVPR 2025)
具体来说,下一个掩码 Mt+1 是由 Fiter(I,st,at) 生成的,其中st+1=(Mt+1,a0:t)。使用一种迭代点击模拟策略来自动化评估交互式分割模型,从现有分割数据集 Dseg={(I,Mtarget,P)} 推导出注释轨迹数据集 Dtraj {(I,Mtarget,P,[s0,a0,s1,a1,...,sT,aT])},并使用这些数据通过指令微调MLLM,从而得到我们的SegAgent。如图所示,当前掩码Mt和原始图像I作为视觉输入提供给MLLM。
2025-06-27 21:58:55
769
原创 Agentic retrieval-augmented generation : a survey on agentic RAG
在多代理系统中,反思可能涉及不同的角色,例如一个代理生成输出,而另一个对其进行批判,促进协作改进。采用分类器(较小的语言模型)评估查询复杂性,并确定最合适的方法,范围从单步检索到多步推理检索,对于直接查询完全绕过检索。在引入基于智能体的自主性的同时,利用了检索和生成过程的模块化。利用这些模式,代理能够处理迭代式的、上下文感知的任务,这些任务显著超出了传统RAG系统的能力。针对复杂查询,系统可自动发起第二次、第三次检索,利用已获得的中间结果进一步检索其它文档,实现跨文档、跨段落的多步推理。
2025-06-17 20:42:26
855
原创 Insight-V:Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models(CVPR 2025)
推理模型负责生成详细的推理过程以协助解决问题,而总结模型则评估这一推理作为补充信息,以判断其对回答问题的重要性和实用性。对于总结代理,用总结代理数据集(2.3总结代理中所述)训练,并从用于基础模型的数据集中抽样大约一百万个通用图像-文本对,以保持其原始的视觉感知能力。分别表示第 t 步的响应和最终答案,Ri 表示模型在第 i 步生成的推理,n 代表总推理步骤,A 是前一步确定的动作。通过上述两个步骤,我们构建了一个结构化的、高质量的数据集,它为每个问题提供了详细的推理过程,有效地支持了我们模型的训练。
2025-06-13 16:28:24
662
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅