一、文章主要内容总结
该研究针对多模态大型语言模型(MLLMs)在长期地球观测分析中局限于单时相或双时相影像的问题,提出了 DVL-Suite 综合框架,用于通过遥感影像分析长期城市动态。核心内容包括:
- 数据集与基准构建:DVL-Suite 包含 DVL-Bench(基准测试集)和 DVL-Instruct(指令微调数据集),涵盖 2005-2023 年美国 42 个主要城市的 14,871 张高分辨率(1.0m)多时相影像,平均每个场景 6.73-6.94 个时相帧,支持长期城市动态分析。
- 任务设计:DVL-Bench 定义了 6 类核心城市理解任务,覆盖像素级变化检测、区域级定量分析和场景级综合叙事,包括基础变化分析(BCA)、变化速度估计(CSE)、环境评估(EA)、参考变化检测(RCD)、区域变化描述(RCC)和密集时间描述(DTC),涵盖城市扩张、灾害评估、环境挑战等多样场景。
- 模型评估与局限:对 18 个主流 MLLMs(含商业模型如 o4-mini、GPT4.1 和开源模型如 Qwen2.5-VL、InternVL3)的评估显示,现有模型在长期时间理解和定量分析中存在显著不足,最优模型 o4-mini 的整体 QA 平均准确率仅 34.1%。
- 模型开发:基于 DVL-Instruct 数据集开发了 DVLChat 基线模型,通过任务特定路由机制实现影像级问答和像素级分割能力,在 7B 参数规模下性能超越其基础模型 Q

订阅专栏 解锁全文
744

被折叠的 条评论
为什么被折叠?



