2025-ICLR-DynamicVL: Benchmarking Multimodal Large Language Models for Dynamic City Understanding

UnknownBody

于 2025-12-30 10:30:00 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily Multimodal 顶会论文文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/156234116

LLM Daily 同时被 3 个专栏收录

1789 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

177 篇文章

订阅专栏

5 篇文章

订阅专栏

一、文章主要内容总结

该研究针对多模态大型语言模型（MLLMs）在长期地球观测分析中局限于单时相或双时相影像的问题，提出了 DVL-Suite 综合框架，用于通过遥感影像分析长期城市动态。核心内容包括：

数据集与基准构建：DVL-Suite 包含 DVL-Bench（基准测试集）和 DVL-Instruct（指令微调数据集），涵盖 2005-2023 年美国 42 个主要城市的 14,871 张高分辨率（1.0m）多时相影像，平均每个场景 6.73-6.94 个时相帧，支持长期城市动态分析。
任务设计：DVL-Bench 定义了 6 类核心城市理解任务，覆盖像素级变化检测、区域级定量分析和场景级综合叙事，包括基础变化分析（BCA）、变化速度估计（CSE）、环境评估（EA）、参考变化检测（RCD）、区域变化描述（RCC）和密集时间描述（DTC），涵盖城市扩张、灾害评估、环境挑战等多样场景。
模型评估与局限：对 18 个主流 MLLMs（含商业模型如 o4-mini、GPT4.1 和开源模型如 Qwen2.5-VL、InternVL3）的评估显示，现有模型在长期时间理解和定量分析中存在显著不足，最优模型 o4-mini 的整体 QA 平均准确率仅 34.1%。
模型开发：基于 DVL-Instruct 数据集开发了 DVLChat 基线模型，通过任务特定路由机制实现影像级问答和像素级分割能力，在 7B 参数规模下性能超越其基础模型 Q

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。