- 博客(4)
- 收藏
- 关注
原创 CVPR|FaceBench:AMulti-ViewMulti-LevelFacialAttributeVQADatasetfor BenchmarkingFacePerceptionMLLMs
在人工智能领域,多模态大型语言模型(MLLMs)已在视频分析、自动驾驶、医疗应用等多个领域展现出卓越的视觉理解能力。从分析复杂的视频序列到辅助医疗诊断,这些模型不断拓展着人工智能的应用边界。然而,当聚焦于人类面部这一蕴含丰富信息的特殊视觉对象时,对MLLMs面部感知能力的全面评估却长期处于探索不足的状态。现有数据集要么视角单一,要么属性颗粒度粗糙,难以满足对模型精细化面部分析能力的评估需求。
2025-12-20 09:46:04
964
原创 IEEE Xplore|GEOBench-VLM:BenchmarkingVision-LanguageModelsforGeospatialTasks
当前通用视觉语言模型(VLMs)基准测试未针对地理空间应用设计,无法解决地理空间数据的核心挑战(如时间变化检测、大规模物体计数、微小物体检测、遥感实体关系理解),且现有相关基准(如SEED-Bench、VLEO)存在任务覆盖不全(缺时序分析、非光学数据、分割任务)、未关注地理空间专用模型等局限。通用 VLM 基准测试(GenericVLMsBenchmarks):特点:多个基准测试从视觉任务维度评估多模态模型,各有优劣,均存在地理空间相关任务缺失或不足问题。
2025-12-12 20:22:16
666
原创 EMNLP 2024|Infrared-LLaVA: Enhancing Understanding of Infrared Images in Multi-Modal Large Language
在多模态大语言模型(MLLMs)席卷通用视觉领域的当下,红外图像这一具有“全天候感知”能力的特殊模态,却因数据稀缺、模态特性差异大等问题,成为多模态理解的“盲区”。哈尔滨工业大学与鹏城实验室联合团队提出的Infrared-LLaVA,通过辩论式多智能体数据生成、专属基准构建与精细化模型训练,构建了一套完整的红外图像理解解决方案。本文将从技术原理、核心公式、实验细节到文章关键图片解读,全面拆解这一创新成果。任务类型数据来源数量占比(%)定位(Locate)FLIR438714.48航空计数。
2025-12-06 19:40:54
541
原创 ICML 2019|适配器模块:NLP中参数高效的迁移学习新范式
NLP中全量微调预训练模型虽迁移效果好,但多任务场景下参数效率极低(每个任务需训练100%参数)。适配器模块可解决该问题:冻结原模型参数,仅为每个任务新增少量可训练参数,新增任务无需重训旧任务,实现高参数共享。在含GLUE基准的26个文本分类任务验证显示,适配器仅新增3.6%任务参数,性能仅比全量微调低0.4%,参数效率显著提升。
2025-11-28 20:18:13
593
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅