Aligning Effective Tokens with Video Anomaly in Large Language Models

# 文章总结与翻译

一、文章主要内容

本文聚焦视频异常事件理解这一关键且具挑战性的任务,针对现有多模态大语言模型(MLLMs)在处理视频异常时因异常事件时空稀疏性、冗余信息干扰导致性能欠佳的问题,提出了名为VA - GPT的新型多模态大语言模型,具体内容如下:

  1. 核心问题:传统视频异常检测方法存在封闭集检测分类局限、词汇量有限难以应对未知场景的问题;现有MLLMs虽在通用视频分析表现良好,但无法有效对齐异常区域与相关描述、精准识别异常时间区间,因它们平等对待所有潜在 tokens,冗余 tokens 影响性能。
  2. 模型架构:VA - GPT 包含空间有效 token 选择(SETS)和时间有效 token 生成(TETG)两大核心模块。SETS 通过计算相邻帧补丁嵌入差异,筛选出变化大的区域作为空间有效 token,去除冗余;TETG 利用轻量级预训练分类器为每帧分配异常置信度,生成包含异常时间区间的时间有效 token,输入LLM 以增强时间推理能力。
  3. 数据集与训练:构建用于微调视频异常感知 MLLMs 的指令遵循数据集,基于 UCF - Crime 数据集,包含 4077 个视频和 7730 张图像;设计两阶段训练策略,先用异常视频数据微调增强 LLM 异常感知,再用空间有效 token 微调优化空间上下文理解。
  4. 实验评估</
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值