The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation

最新推荐文章于 2026-01-10 10:03:34 发布

原创最新推荐文章于 2026-01-10 10:03:34 发布 · 164 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

1839 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Urban and Traffic

18 篇文章

订阅专栏

本文是LLM系列文章，针对《The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications》的翻译。

摘要

热成像数据与多模态大型语言模型（MLLM）的集成为提高自动驾驶系统和许多智能交通系统（ITS）应用的安全性和功能性提供了一个令人兴奋的机会。本研究调查了 MLLM 是否可以理解来自 RGB 和热像仪的复杂图像并直接检测物体。我们的目标是 1）评估 MLLM 从各种集合中学习信息的能力，2）检测物体并识别热像仪中的元素，3）确定两个独立的模态图像是否显示相同的场景，以及 4）使用不同的模态学习所有物体。研究结果表明，GPT-4 和 Gemini 在检测和分类热图像中的物体方面都很有效。同样，行人分类的平均绝对百分比误差（MAPE）分别为 70.39% 和 81.48%。此外，自行车、汽车和摩托车检测的 MAPE 分别为 78.4%、55.81% 和 96.15%。Gemini 的 MAPE 分别为 66.53%、59.35% 和 78.18%。这一发现进一步表明，MLLM 可以识别热图像，并可用于 ITS 应用的高级成像自动化技术。

1 引言

2 文献综述

3 方法

4 结果

5 讨论和结论

通过测量 GPT4 和 Gemini 的 MAPE 值来评估来自多种模态的图像中对象分类的准确性。GPT4 和 Gemini 在多个项目类别中表现出不同的熟练程度，例如行人、自行车、汽车和摩托车。Gemini 在识别行人方面的精度更高，MAPE 为 81.48%，而 GPT4 的 MAPE 为 70.