2025-ICLR-DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding

一、文章主要内容总结

该研究针对多模态大型语言模型(MLLMs)在长期地球观测分析中局限于单时相或双时相影像的问题,提出了 DVL-Suite 综合框架,用于通过遥感影像分析长期城市动态。核心内容包括:

  1. 数据集与基准构建:DVL-Suite 包含 DVL-Bench(基准测试集)和 DVL-Instruct(指令微调数据集),涵盖 2005-2023 年美国 42 个主要城市的 14,871 张高分辨率(1.0m)多时相影像,平均每个场景 6.73-6.94 个时相帧,支持长期城市动态分析。
  2. 任务设计:DVL-Bench 定义了 6 类核心城市理解任务,覆盖像素级变化检测、区域级定量分析和场景级综合叙事,包括基础变化分析(BCA)、变化速度估计(CSE)、环境评估(EA)、参考变化检测(RCD)、区域变化描述(RCC)和密集时间描述(DTC),涵盖城市扩张、灾害评估、环境挑战等多样场景。
  3. 模型评估与局限:对 18 个主流 MLLMs(含商业模型如 o4-mini、GPT4.1 和开源模型如 Qwen2.5-VL、InternVL3)的评估显示,现有模型在长期时间理解和定量分析中存在显著不足,最优模型 o4-mini 的整体 QA 平均准确率仅 34.1%。
  4. 模型开发:基于 DVL-Instruct 数据集开发了 DVLChat 基线模型,通过任务特定路由机制实现影像级问答和像素级分割能力,在 7B 参数规模下性能超越其基础模型 Q
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值