自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 CVPR|FaceBench:AMulti-ViewMulti-LevelFacialAttributeVQADatasetfor BenchmarkingFacePerceptionMLLMs

在人工智能领域,多模态大型语言模型(MLLMs)已在视频分析、自动驾驶、医疗应用等多个领域展现出卓越的视觉理解能力。从分析复杂的视频序列到辅助医疗诊断,这些模型不断拓展着人工智能的应用边界。然而,当聚焦于人类面部这一蕴含丰富信息的特殊视觉对象时,对MLLMs面部感知能力的全面评估却长期处于探索不足的状态。现有数据集要么视角单一,要么属性颗粒度粗糙,难以满足对模型精细化面部分析能力的评估需求。

2025-12-20 09:46:04 964

原创 IEEE Xplore|GEOBench-VLM:BenchmarkingVision-LanguageModelsforGeospatialTasks

当前通用视觉语言模型(VLMs)基准测试未针对地理空间应用设计,无法解决地理空间数据的核心挑战(如时间变化检测、大规模物体计数、微小物体检测、遥感实体关系理解),且现有相关基准(如SEED-Bench、VLEO)存在任务覆盖不全(缺时序分析、非光学数据、分割任务)、未关注地理空间专用模型等局限。通用 VLM 基准测试(GenericVLMsBenchmarks):特点:多个基准测试从视觉任务维度评估多模态模型,各有优劣,均存在地理空间相关任务缺失或不足问题。

2025-12-12 20:22:16 666

原创 EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language

在多模态大语言模型(MLLMs)席卷通用视觉领域的当下,红外图像这一具有“全天候感知”能力的特殊模态,却因数据稀缺、模态特性差异大等问题,成为多模态理解的“盲区”。哈尔滨工业大学与鹏城实验室联合团队提出的Infrared-LLaVA,通过辩论式多智能体数据生成、专属基准构建与精细化模型训练,构建了一套完整的红外图像理解解决方案。本文将从技术原理、核心公式、实验细节到文章关键图片解读,全面拆解这一创新成果。任务类型数据来源数量占比(%)定位(Locate)FLIR438714.48航空计数。

2025-12-06 19:40:54 541

原创 ICML 2019|适配器模块:NLP中参数高效的迁移学习新范式

NLP中全量微调预训练模型虽迁移效果好,但多任务场景下参数效率极低(每个任务需训练100%参数)。适配器模块可解决该问题:冻结原模型参数,仅为每个任务新增少量可训练参数,新增任务无需重训旧任务,实现高参数共享。在含GLUE基准的26个文本分类任务验证显示,适配器仅新增3.6%任务参数,性能仅比全量微调低0.4%,参数效率显著提升。

2025-11-28 20:18:13 593

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除