视觉语言模型
文章平均质量分 93
视觉语言模型论文速读
这张生成的图像能检测吗
方向:机器视觉,主攻目标检测、GAN图像生成、低照度图像处理、模型三维结构设计、单片机开发板控制。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(论文速读)Unified Modality Separation: 无监督领域自适应的视觉语言框架
一种新颖的视觉语言框架UniMoS++,用于解决无监督域适应中的模态间隙问题。不同于传统方法强制对齐视觉和文本模态,该框架通过分离模态特定组件(VAC和LAC)并保留模态不变知识,实现了更有效的跨域知识迁移。创新性地设计了模态差异指标(MDI)对样本进行分类,以及测试时自适应集成算法(MaE)自动优化模态权重。实验表明,该方法在多个基准数据集上显著提升性能(最高达9%),同时计算效率提升9倍。该工作为利用预训练视觉语言模型进行域适应提供了新思路,在保持模态特性的同时实现有效的知识迁移。原创 2026-01-03 00:33:12 · 1124 阅读 · 0 评论 -
(论文速读)MoE-Adapters++: 过动态混合专家适配器实现更有效的视觉语言模型的持续学习
MoE-Adapters++框架,通过动态混合专家适配器实现视觉语言模型的高效持续学习。该方法采用参数高效的训练策略,在冻结CLIP模型基础上构建动态可扩展的专家集合,利用潜在嵌入自动选择器(LEAS)实现任务识别与零样本推理的无缝切换。相比原始MoE-Adapters,改进后的框架显著降低98%训练参数和70%GPU内存消耗,在11个任务的持续学习基准上取得77.5%平均准确率。实验表明,该方案能有效缓解灾难性遗忘问题,同时保持模型原有的零样本能力,为大规模多模态模型的持续学习提供了高效解决方案。原创 2025-12-11 08:12:58 · 1098 阅读 · 0 评论 -
(论文速读)面向视觉语言模型组合性理解可视分析方法
视觉语言模型组合性理解的可视分析方法研究 本研究针对视觉语言预训练模型在组合性理解能力上的不足,提出了一种创新的交互式可视分析方法。通过优化传统网格布局,增强对大规模数据集中模型跨模态对齐能力的视觉感知,并深入解析多头注意力机制在跨模态理解中的具体表现。实验结果表明,90%的参与者认为该方法比传统数据指标分析更有效,能显著提升对视觉语言模型中模态隔离现象的认知。研究揭示了当前模型在细粒度语义理解上的局限性,为改进视觉语言模型的组合性理解能力提供了新的分析视角。原创 2025-12-11 08:12:27 · 989 阅读 · 0 评论 -
(综述)视觉-语言模型研究
该文系统回顾了视觉-语言模型的最新进展,重点分析了原始特征处理、模态交互策略、模型架构和预训练任务等关键技术。文章指出,VLMs通过结合计算机视觉与自然语言处理技术,在跨模态任务中展现出显著优势。研究详细探讨了文本与图像特征处理方法、四种主流模态交互策略,以及补全型和对齐型预训练任务。同时,文章总结了迁移学习策略的性能表现,并提出解决幻觉问题、视觉令牌压缩和低秩自适应研究等未来方向。该综述为VLMs研究提供了全面的技术参考和发展路线图。原创 2025-11-28 10:48:15 · 1140 阅读 · 0 评论 -
(综述2025)视觉语言模型架构发展综述
系统综述了视觉语言模型(VLM)的技术发展历程与核心架构。研究将VLM演进划分为四个阶段:2015-2018年的CNN-RNN组合架构、2018-2021年的Transformer统一架构、2020-2021年的对比学习爆发期,以及2021年至今的LLM驱动时代。文章深入剖析了VLM三大核心组件(视觉编码器、语言编码器和跨模态融合机制)及关键预训练技术(掩码建模、对比学习),并分析了主流数据集对模型性能的影响。研究指出当前面临语义鸿沟、评估困境等挑战。原创 2025-11-27 16:16:27 · 1520 阅读 · 0 评论 -
(论文速读)单目深度估计的视觉语言体现
这篇论文提出了一种创新的单目深度估计方法,通过融合视觉-语言信息和相机物理特性来提升精度。核心创新包括:1)将相机模型具身化,利用相机内参和平面假设计算几何先验深度;2)引入包含深度信息的文本描述作为语言先验;3)设计交叉注意力机制融合RGB特征和几何先验。实验表明,该方法在KITTI和DDAD数据集上全面超越现有技术,特别是在道路区域实现±5%误差范围内80.24%的像素精度。该研究通过多模态融合和物理约束嵌入,为单目深度估计提供了新思路。原创 2025-11-07 17:22:34 · 1162 阅读 · 0 评论 -
(论文速读)文本引导的可探索图像超分辨率
这篇CVPR2024论文提出了一种创新的文本引导图像超分辨率方法,允许用户通过自然语言描述探索多样化的重建结果。研究团队开发了两种零样本技术:1)改造文本生成扩散模型(T2I-DPS/ΠGDM/DDNM)使其满足低分辨率约束;2)将CLIP引导融入基于零样本扩散的恢复方法。实验表明,该方法在保持数据一致性的同时,能生成符合文本语义的多样化高质量重建,在×16超分辨率任务上显著优于基线方法(文本匹配度提升40%以上)。用户研究证实了该方法在真实感和语义准确性上的优势。原创 2025-10-18 15:05:28 · 1029 阅读 · 0 评论 -
(论文速读)T2I-PAL:文本到图像的多标签图像识别与联合提示适配器学习
一种创新的多标签图像识别方法T2I-PAL,通过结合文本到图像生成技术和联合提示适配器学习,有效解决了传统方法中模态差距和数据标注成本高的问题。该方法利用预训练文本-图像生成模型从文本描述生成多样图像,显著缩小了文本与图像特征间的模态差距。同时采用分类热图和可学习原型增强局部特征表示,结合提示调优和适配器学习提升分类性能。实验表明,T2I-PAL在多个基准数据集上平均性能提升3.47%,且无需全标注训练图像,可无缝集成到现有CLIP框架中。原创 2025-10-17 13:32:29 · 749 阅读 · 0 评论 -
(论文速读)ECLIPSE:突破性的轻量级文本到图像生成技术
【摘要】CVPR 2024论文《ECLIPSE》提出了一种资源高效的文本到图像先验模型,显著降低现有技术对计算资源和数据的需求。该研究突破性地采用对比学习方法替代传统扩散架构,将参数缩减至原模型的3.3%,训练数据仅需2.8%,在保持生成质量的同时大幅提升效率。实验表明,ECLIPSE在资源受限环境下性能超越基线71.6%,与SOTA大模型相比达到63.36%的文本跟随能力。这一创新为民主化AI图像生成技术提供了可行方案,使高质量图像生成不再依赖昂贵计算资源。原创 2025-10-16 08:48:14 · 1328 阅读 · 0 评论 -
(论文速读)GlueGen:让AI图像生成模型“即插即用“
GlueGen提出了一种创新的多模态编码器对齐方法,通过GlueNet将不同编码器的特征空间与现有文本到图像(T2I)模型的潜在空间对齐。该技术突破了传统T2I模型编码器与解码器紧耦合的限制,实现了三大突破:1)支持多语言模型直接接入,如将XLM-RoBERTa与StableDiffusion对齐实现非英语输入;2)实现跨模态生成,如AudioCLIP音频编码器支持声音到图像生成;3)可升级现有文本编码器。实验表明该方法训练高效,仅需少量对齐数据,显著降低了模型扩展成本。原创 2025-10-16 08:47:32 · 1200 阅读 · 0 评论 -
(论文速读)文本到图像生成的丰富人类反馈
摘要: 该文提出RichHF-18K数据集,通过收集18,000张生成图像的精细化人类反馈(包括问题区域标注和提示词匹配分析),解决现有文本到图像生成模型的质量评估瓶颈。研究团队开发了RAHF模型,能自动预测图像问题区域和细粒度质量分数。实验证明该方法不仅能提升Stable Diffusion等模型的生成质量,还可泛化至Muse等其他架构。该工作为生成式AI提供了新的评估范式和改进路径,代码已开源。原创 2025-10-13 10:51:45 · 864 阅读 · 0 评论 -
(论文速读)ReCo:区域控制的文本到图像生成
ReCo是一种新型区域控制文本到图像生成技术,通过引入位置标记实现精确的空间控制。相比传统T2I模型,ReCo在输入中增加四个位置标记表示区域坐标,并保持原有架构不变。实验显示,在COCO数据集上FID从8.82降至7.36,区域分类精度提升20.4%,能更准确控制物体数量、空间关系和属性。人类评估表明,在目标数量和空间关系准确率上分别提升19.28%和17.21%。该技术为AI绘画提供了更精准的区域控制能力,推动了从大致生成到;精确控制的转变。原创 2025-09-27 20:26:43 · 959 阅读 · 0 评论 -
(论文速读)LamRA:大型多模态检索助手
LamRA:基于大型多模态模型的通用检索框架 本文提出LamRA框架,将生成式大型多模态模型(LMM)改造为通用检索系统。通过插入轻量级LoRA模块,LamRA赋予LMM检索和重排序能力,同时保持生成功能。框架包含两阶段训练的LamRA-Ret检索组件和联合训练的LamRA-Rank重排序组件,采用显式一词限制方法统一多模态输入表示。实验表明,LamRA在16个检索任务上平均性能提升7.1%,在未见任务上展现出强大的零样本泛化能力。该工作实现了从专用检索模型向通用多模态检索的范式转换,为构建智能检索系统提供原创 2025-09-24 11:55:55 · 1287 阅读 · 0 评论 -
(论文速读)基于视觉语言知识的火车表面缺陷检测新方法
本文提出基于视觉语言知识引导的列车表面缺陷检测模型ViLG,通过CLIP预训练模型弥补小数据集语义不足的问题。创新性地设计视觉特征引导模块增强全局表征能力,缺陷查询选择器提升潜在缺陷关注度,语义一致性损失优化跨模态对齐,并扩展ViLG+实现假阳性过滤。实验表明,该方法在两个列车缺陷数据集和公开数据集上显著提升检测性能,平均精度提升23.58%,mAP提高6.05%,且假阳性/假阴性更平衡。研究为小样本工业检测提供了新思路,具有重要理论价值和实践意义。原创 2025-09-16 15:23:05 · 1108 阅读 · 0 评论 -
(论文速读)零样本缺陷检测:通过文本域桥接实现异常属性感知
提出了一种基于文本域桥的异常属性感知零样本缺陷检测方法。针对传统缺陷检测方法需要大量特定数据训练和CLIP模型在属性感知上的局限性,研究团队设计了文本域桥接技术,将简单的通用文本提示转换为具有缺陷感知能力的嵌入表示。该方法结合组件聚类机制,通过跨模态学习策略实现零样本缺陷检测。在MVTecAD等3个数据集上的实验表明,该方法在检测准确性和缺陷定位能力上均优于现有方法,平均AUROC提升2%以上。该技术显著降低了数据收集和模型训练成本,为实现柔性制造提供了高效解决方案。原创 2025-09-15 10:11:59 · 1103 阅读 · 0 评论 -
(论文速读)X2-VLM:突破视觉语言理解边界的全能预训练模型
X2-VLM提出了一种创新的多粒度视觉语言预训练框架,通过统一架构同时学习对象级、区域级和图像级的视觉语言对齐。该模型采用模块化设计,使用双重预训练目标(多粒度对齐和定位),实现了图像-文本和视频-文本任务的高效统一处理。实验表明,X2-VLM在多项基准测试中表现优异,其模块化特性还支持零成本的跨语言适应。该工作为多模态AI提供了统一处理多粒度视觉语言任务的新范式,在性能和模型规模间取得了良好平衡。论文发表于IEEE TPAMI,代码已开源。原创 2025-09-15 10:11:31 · 915 阅读 · 0 评论 -
(综述)视觉任务的视觉语言模型
来自TPAMI的关于视觉语言模型的综述文章原创 2025-09-13 13:21:23 · 1517 阅读 · 0 评论 -
(论文速读)从语言模型到通用智能体
通用具身代理(GEA),通过多模态大语言模型实现跨领域任务统一处理。核心创新包括:1)设计多体验动作分词器,将异构动作统一编码为token序列;2)采用两阶段训练策略(监督学习+在线强化学习);3)实现跨领域知识迁移。实验表明,GEA在机器人操控(94.7% Meta-World)、游戏(44% Procgen专家水平)等任务中显著超越基线方法7-22%。关键发现:在线强化学习对错误恢复能力至关重要,跨域训练产生正向知识迁移。原创 2025-09-09 12:27:38 · 1309 阅读 · 0 评论 -
(论文速读)MVPortrait:文本驱动的多视角生动肖像动画技术
《MVPortrait:文本引导的多视图生动肖像动画》提出了一种创新性两阶段框架,通过FLAME 3D面部模型作为中间表示,实现文本驱动的多视角肖像动画生成。该系统采用解耦设计,分别训练运动和情感扩散模型,再通过多视图视频生成模型输出动画。实验表明,该方法在文本对齐、情感表达和多视角一致性上优于现有技术,且兼容文本、语音和视频多种驱动方式。该技术为虚拟主播、影视制作等领域提供了新的解决方案,代表了数字人动画领域的重要进展。原创 2025-09-08 09:28:46 · 1190 阅读 · 0 评论 -
(论文速读)视觉语言模型评价中具有挑战性的选择题的自动生成
AutoConverter框架将现有视觉问答(VQA)数据集自动转换为高质量多选题,以解决开放式问题评估存在的客观性不足问题。该多智能体系统通过五类错误建模生成干扰项,结合迭代优化确保正确性。实验表明其生成题目难度媲美甚至超越人工题,构建的VMCBench基准涵盖9,018道统一多选题。在评估33个前沿视觉语言模型时发现:公开模型Qwen2-VL-72B(85.0%)超越GPT-4o(80.3%),且模型性能呈现明显规模效应。该研究为可扩展、标准化的VLM评估提供了新范式。原创 2025-09-06 16:05:08 · 727 阅读 · 0 评论 -
(论文速读)MoManipVLA:通用移动操作的视觉语言动作模型转移
MoManipVLA,将预训练的视觉语言动作(VLA)模型迁移至移动操作领域,解决传统方法泛化能力不足的问题。通过双层优化架构:上层规划移动基座路径点以拓展操作空间,下层优化末端执行器轨迹完成具体任务。实验表明,该方法在OVMM基准上成功率提升4.2%,且仅需50个演示样本即可实现真实场景部署。该技术显著降低了移动操作机器人的训练成本,增强了跨任务跨环境的适应能力,为服务机器人实用化提供了新思路。原创 2025-09-05 10:34:16 · 774 阅读 · 0 评论 -
(论文速读)FINECAPTION:合成图像字幕专注于任何你想在的粒度
FINECAPTION:基于掩码感知和多分辨率融合的细粒度图像描述模型 摘要:本研究针对现有视觉语言模型在细粒度区域理解和组合特征描述上的不足,提出FINECAPTION创新框架。该模型通过掩码感知编码技术(将掩码作为第四通道)实现精确区域定位,并采用多分辨率编码器融合(336×336+1024×1024)捕获不同粒度特征。配套构建的COMPOSITIONCAP数据集包含5,392张图像和186,490个属性描述,涵盖18种组合属性。原创 2025-09-02 10:19:42 · 1079 阅读 · 0 评论
分享