码科智能 | 传统的火灾检测任务过时了？一个开源的大规模多模态火灾理解数据集来了：场景全覆盖、全风险等级-优快云博客

本文来源公众号“码科智能”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/aJ82N4r90kGqHiGHAjZwng

多模态火灾理解该如何设计？图源自ultralytics

专注于图像分类和目标检测的传统火灾检测任务已经过时，因为在实际的应用中通常需要更细粒度的区分，这是一个安全的烛光晚餐，还是一个即将失控的油锅火灾？燃烧的是树叶还是燃气罐？

而基于现有数据训练（常常只有一个检测框）的视觉模型往往只能告诉你“这里有没有火”，却无法理解“这是什么火？风险多大？该怎么办？”

考虑多模态大模型擅长视觉推理、也能给出更详细的图像内容描述，在减少火灾检测误报方面应该具备潜力！

但在至关重要的火灾安全领域，多模态大模型却一直处于近乎空白，核心痛点在于：市场上极度缺乏高质量、大规模、能用于训练现代AI的火灾数据集。

Baidu AI Studio - 一站式AI开发实训平台

我们不仅要让 AI 看见火，更要让它理解火，才能做出真正智能的决策。于是就有了今天给大家推荐的首个面向多模态大模型的大规模火灾理解数据集DetectiumFire，包含超过22,500张图像和2,500个视频，旨在通过视觉和语言的集成来增强对火灾的理解。

一、人工智能在火灾检测中的问题

在深入介绍 DetectiumFire 数据集之前，我们先来理解当前AI防火领域面临的困境。

1. 数据稀缺：火灾事件发生频率低且记录危险，导致高质量的真实火灾图像和视频数据极为稀缺。此前，该领域最大的公开数据集 D-Fire 仅包含约5000张标注图像，且其中大量是从视频中抽取的连续帧，导致数据冗余度高、多样性不足。

2. 任务缺陷：传统的火灾检测数据集，仅仅提供了“边界框”这类基础标注，对细粒度推理的注释不足。一个合格的消防安全AI，需要能回答更复杂的问题，这些上下文推理能力，是传统数据集完全无法提供的，也成为了AI落地安全关键领域的最大瓶颈。

3. 技术脱节：大多数数据集格式仍停留在“一张图一个框”的时代，无法驱动新模型 Stable Diffusion、LLaMA 等现代多模态模型，其需要的是图文对、详细提示词等丰富数据来进行训练和推理。

二、带详细描述的多模态火灾数据集

DetectiumFire 从规模、质量、维度三大层面进行了全面革新。

1. 拥有史无前例的规模与多样性：DetectiumFire 包含了2.25万张高分辨率火灾图像与 2500 个真实世界火灾视频，场景全覆盖囊括室内（厨房火灾、电器火灾、烛火）与室外（森林野火、车辆火灾、建筑火灾）两大类别。

另外在安全维度不仅包含灾难性的“失控火”，更创新性地纳入了大量受控的低风险火（如篝火、炉灶火），从常见的木质材料到罕见的船舶、飞机火灾，覆盖了绝大多数真实存在的火灾场景，这对于训练AI减少误报至关重要。数据集结构如下：

DetectiumFire/
├── preference_dataset/
├── real_images/
├── real_video/
└── synthetic_images/

2. 超越边框的深度标注：每一张图像不仅拥有精准的边界框，更配备了由专家级标注员审核修正的详细文本描述，采用标准图文对的标注类型。

{
  "prompt": "a fire truck is on the street with smoke coming out of it",
  "image1": "img3/00000-1749640795.png",
  "image2": "img2/00000-3687853181.png",
  "preference": 2,
  "reason": "Preference: 2 Justification: 1. **General Preference**: The second image is more visually appealing and convincing... [truncated]"
}

3. 利用生成模型引入合成数据：通过监督微调和基于人类反馈的强化学习两种前沿方案，对Stable Diffusion等模型进行定向微调，生成了超过8000张高质量的合成火灾图像。

常规的 YOLO 模型在使用 DetectiumFire 训练后，目标检测模型在面对日落、红色灯光等易混淆场景时，误报率显著降低。

基于 LLaMA 架构微调的视觉语言模型，已经能够从图像中推理出燃烧物体、周边环境和火灾严重等级。

这意味着 AI 可以真正理解火灾场景，为下一代智能预警系统（能区分危险与否）、灾后评估报告自动生成等应用铺平了道路。

# 论文
DetectiumFire: A Comprehensive Multi-modal Dataset for Fire Understanding
# 链接
https://arxiv.org/pdf/2511.02495
# 数据
https://www.kaggle.com/datasets/38b79c344bdfc55d1eed

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。