- 博客(193)
- 收藏
- 关注
原创 【Nature Communications‘24‘06】预训练多模态大语言模型通过 SkinGPT-4 提升皮肤病学诊断能力
这篇论文的创新在于提出了 SkinGPT-4,一个结合多模态大语言模型和视觉模型的系统,通过自动分析皮肤病图像并生成精确的诊断文本,提供交互式的皮肤病学诊断,提升了医学图像诊断的效率和准确性。
2025-11-19 20:26:16
1044
原创 HiProbe-VAD:通过在免微调多模态大语言模型中探测隐状态实现视频异常检测
这篇论文的创新是首次发现并量化了 MLLM 中间层对视频异常具有天然的高敏感性和可分性,并提出利用该特性进行 training-free 的 VAD 框架。
2025-11-18 22:02:50
1021
原创 无需训练的群体相对策略优化
这篇论文的创新是把原本在参数空间做的 GRPO 强化学习,改成在上下文空间通过语义“经验库”来做 training-free 的策略优化,即利用群体相对语义优势,而非数值优势。
2025-11-17 19:53:03
954
原创 一种面向整体零样本视频异常分析的统一推理框架
这篇论文的创新是提出了一个统一的、零样本的推理框架,能够在无需额外训练的情况下,结合时间检测、空间定位和文本理解任务,实现全面的视频异常分析。
2025-11-17 11:27:12
872
原创 PANDA:通过代理型 AI 工程师迈向通用视频异常检测
这篇论文的创新在于提出了 一种基于 MLLMs 的代理型 Agent 框架,通过结合自适应场景感知规划、目标驱动推理、工具增强自反思与自我改进记忆链,实现了在无训练与无人工干预条件下的通用视频异常检测。
2025-11-13 14:42:45
1043
原创 在大语言模型中将有效Token与视频异常对齐
这篇论文的主要创新是提出了一种新的多模态大语言模型(VA-GPT),通过空间有效令牌选择(SETS)和时间有效令牌生成(TETG)模块,提升了视频异常检测的空间和时间定位能力。主要还是以前的方法确实没有这种去选择有效token的,相当于过滤掉了冗余的信息,并给模型一些最有用的信息。
2025-09-16 11:36:58
1358
原创 看、听、记与推理:具备长期记忆的多模态智能体
这篇论文的创新是提出 M3-Agent,把视频/音频流转成“实体中心”的情节记忆+语义记忆,并用RL训练的多轮检索-推理控制器在记忆上迭代推理(模型生成问题去查询,优于单轮RAG),并以 M3-Bench 长视频跨模态基准验证其有效性。
2025-09-05 16:11:34
1129
原创 AgentThink:一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架
这篇论文的创新点是 首次将动态的工具调用与链式推理统一到自动驾驶视觉语言模型中,通过结构化数据(构建微调数据)、两阶段训练(SFT+GRPO)和专门的工具使用评估显著提升了推理一致性、可解释性和决策准确性。
2025-09-04 15:45:46
1004
原创 AAAI26出版社面向使用 LaTeX 的作者的匿名提交说明
AAAI 2026论文提交与格式指南摘要 本文档详细说明了AAAI 2026会议的论文提交要求,包含匿名提交和终稿准备两部分。
2025-07-22 10:10:23
4084
原创 Pixel Reasoner:通过好奇心驱动的强化学习激励像素空间推理
Pixel-Reasoner通过在Vision–Language模型中引入像素级操作(如ZOOM-IN和SELECT-FRAME),在推理链中实现“看–思–再看”的闭环,并采用模板化示例与错误自纠正轨迹进行warm-start指令微调,随后通过好奇心驱动的强化学习平衡像素空间和文本空间推理,有效克服了模型对新操作的学习陷阱。基于此策略,7B参数的Pixel-Reasoner在V*Bench、TallyQA-Complex和InfographicVQA等多项视觉推理基准上刷新了开源模型最佳成绩。
2025-07-15 10:37:40
1221
原创 VLM-R³:面向增强多模态链式思维的区域识别、推理与精化
VLM-R³ 提出了一种结合 Visuo-Lingual Interleaved Rationale (VLIR) 数据集和 Region-Conditioned Reinforcement Policy Optimization (R-GRPO) 策略的多模态推理框架,使模型能够在生成链式推理过程中动态识别、裁剪并整合关键视觉区域,与文本思考交互融合;实验证明,该方法在 MathVista、ScienceQA 等多项基准上均大幅超越了现有开源及闭源模型,尤其在细粒度空间推理场景下表现很好。
2025-07-15 10:13:42
638
原创 Vad-R1:通过从感知到认知的思维链进行视频异常推理
针对传统视频异常检测仅能判断“有无”而缺乏因果推理的局限,提出视频异常推理(VAR)任务,并构建端到端框架 Vad-R1。框架引入感知-认知四阶段 Chain-of-Thought,引导模型由全局场景逐步聚焦至异常本质;同时发布 8 k+ 视频组成的 Vad-Reasoning 数据集,其中 1.8 k 样本含高质量推理链用于监督微调,其余 6 k+ 样本仅具弱标签。为利用弱标注强化推理可靠性,设计 Anomaly Verification Augmented-GRPO 算法,通过“剪视频-复判”自验证奖励
2025-05-30 14:40:19
1657
原创 T2I-R1:通过语义级与图像 token 级协同链式思维强化图像生成
T2I-R1 将“语义级 Chain-of-Thought(先想清全局场景)”和“图像 token 级 Chain-of-Thought(逐 patch 细化像素)”首次合并到同一次文本-生成-图像流程中,并用强化学习框架 BiCoT-GRPO 联合优化二者:模型先用语义 CoT 规划,再用 token CoT 落实细节;多重视觉专家评分(人类偏好、检测器、VQA 等)作为组相对奖励。
2025-05-10 14:24:08
1316
原创 Visual-RFT:视觉强化微调
这篇论文提出了一种全新的多模态模型微调范式,名为视觉强化微调(Visual-RFT)。它将语言模型中已有的强化微调(RFT)方法,首次拓展到了视觉任务上。论文的核心思想是:通过设计可验证的奖励函数(如分类是否正确、检测框与真实框的IoU和置信度等),用强化学习算法(特别是GRPO)来优化大型视觉语言模型(LVLMs),从而在少样本甚至极少样本场景下,实现对图像分类、物体检测、推理定位、开放词汇检测等任务的显著提升。与传统的监督微调(SFT)相比,Visual-RFT不仅更数据高效,而且更能促使模型“理解”任
2025-04-02 16:43:51
1151
原创 Seg-Zero:通过认知强化实现的推理链引导分割
这篇论文提出了Seg-Zero,一个基于强化学习的框架,用于解决指代表达分割(Referring Expression Segmentation)任务。与传统的基于监督学习的分割方法不同,Seg-Zero通过解耦推理模型和分割模型,采用强化学习激活模型的推理能力,能够在没有显式推理数据的情况下生成推理链并执行像素级分割。实验表明,Seg-Zero在零-shot任务中表现优异,尤其在跨域数据上的泛化能力优于现有方法。
2025-04-01 20:51:31
1208
原创 HyperAD:学习弱监督音视频暴力检测在双曲空间中的方法
该研究提出了一种基于双曲几何的HyperVD框架,用于弱监督音视频暴力检测。通过在双曲空间中学习片段表示,HyperVD有效提高了暴力与非暴力实例的区分性,实验结果在XD-Violence数据集上超越了现有方法。
2025-03-19 11:40:53
1141
原创 AnyAnomaly: 基于大型视觉语言模型的零样本可定制视频异常检测
这篇论文提出了一种新型的视频异常检测方法,称为AnyAnomaly。该方法通过零-shot的方式,利用大规模视觉语言模型(LVLM)和上下文感知的视觉问答(VQA)技术,解决了传统视频异常检测方法在多种环境下泛化能力不足的问题。AnyAnomaly不需要额外的训练数据,用户可以通过自定义异常事件的文本描述来检测视频中的异常,适用于各种不同的视频环境。实验表明,AnyAnomaly在多个标准数据集上的表现超越了传统的异常检测方法,尤其在跨领域泛化能力上表现突出。
2025-03-11 20:01:38
1841
2
原创 ACM MM 2025 Overleaf 模板指导
本文介绍了 ACM 文章的排版模板 “acmart” 的使用方法,涵盖了文档结构、格式化规则、数学公式、图像、表格、引用格式以及多语言支持等内容。文章详细说明了如何正确使用 $\LaTeX$ 进行章节划分、插入图表、编写数学公式,并遵循 ACM 期刊和会议论文的格式要求。此外,还包括了 SIGCHI 扩展摘要的特殊格式、附录的使用、致谢部分的编写,以及参考文献的管理方式。本文提供了具体的代码示例和最佳实践,以帮助作者高效地编写符合 ACM 规范的论文。
2025-03-08 11:56:47
12655
14
原创 AnomalyRuler:遵循规则-利用大语言模型进行视频异常检测的推理
这篇论文提出了AnomalyRuler,一个基于推理框架的视频异常检测(VAD)方法,旨在提升检测结果的可解释性和公众信任。AnomalyRuler通过两个阶段进行推理:归纳阶段,通过少量正常样本生成检测规则,推导出正常行为与异常行为的区分;演绎阶段,使用这些规则对测试视频进行异常检测,并结合平滑和投票机制优化检测结果。该方法不需要大量异常样本,能够快速适应不同的VAD场景,并在多个标准数据集上表现出优越的性能和推理能力,超越了传统的VAD方法。
2025-02-14 20:09:46
2053
原创 VERA: 基于视觉-语言模型的解释性视频异常检测框架
VERA 是一种无需修改模型参数的可解释视频异常检测 (VAD) 方法。通过语言化学习,VERA 在训练阶段优化指导性问题,以增强冻结的视觉-语言模型 (VLM) 的推理能力。在推理阶段,VERA 结合场景和时间上下文,通过粗到细的方法优化异常评分,实现帧级检测。实验表明,VERA 在 UCF-Crime 和 XD-Violence 数据集上取得了先进性能,并且相比现有方法,无需指令微调或额外推理模块,大幅降低计算和标注成本。
2025-02-07 17:06:20
1734
原创 MCANet: 基于多模态字幕感知的大语言模型训练无关视频异常检测
就是仿照CVPR'24那篇LAVAD来做的,几乎一摸一样,就引入了一个音频字幕
2025-01-10 21:42:07
1790
2
原创 CUVA:对视频异常因果理解的综合基准(A Comprehensive Benchmark for Causation Understanding of Video Anomaly)
这篇论文主要是发布了一个关于因果理解的数据集,考虑的很全面,包括是什么、为什么、多么重要。
2024-09-26 12:59:21
1474
4
原创 大模型是如何训练出来的?
①预训练,此时只是单纯的利用网络上爬取的资料学习词语接龙,可以作为后面阶段的不错的初始参数;②微调,此时使用预训练好的模型参数作为初始参数,并且冻结这些参数,添加一些新的参数并且只训练这些新参数,而且要使用QA的形式,即指令形式,这样微调出来的模型才可以很好的回答人类所提出的问题;③强化学习,通过反馈来改进自己的答案,好的答案概率提高,不好的答案概率降低。
2024-08-23 19:54:40
1084
原创 VadCLIP:将视觉语言模型应用于弱监督视频异常检测(VadCLIP: Adapting Vision-Language Models for WSVAD)
作者主要是提出了WSVAD的`新范式VadCLIP`,是`双分支`结构,第一个分支利用视觉信息实现二分类,为粗粒度;第二个分支利用 视觉语言对齐方法 实现多分类,为细粒度。VadCLIP主要包括`3个组件`,分别为:①LGT-Adapter捕获时间依赖;②Two prompt mechanisms有效地将CLIP用到WSVAD任务;③MIL-Align实现了弱监督下对齐范式的优化,尽量保留了预训练的知识。
2024-08-16 17:03:30
1864
原创 VAD-LLaMA:基于大语言模型的视频异常检测和解释(Video Anomaly Detection and Explanation via Large Language Models)
作者主要是提出了一个新颖的VAD方法,即VAD-LLaMA,将VLLMs加进了VAD框架,使得模型不仅可以检测异常,还可以解释异常,当然了,检测异常的时候还不用手动选择阈值。创新点主要是:①在MIL基线即VADor上引入了一个LTC来建模长期上下文(还有一个扩展,引入短期历史信息);②提出了三阶段训练方法,使得在训练VLLMs到VAD领域时效率更高,即减少数据需求和降低标注成本。
2024-08-13 17:50:53
2753
3
原创 OVVAD:开放词汇视频异常检测(Open-Vocabulary Video Anomaly Detection)
这篇研究的是弱监督下的开放词汇视频异常检测任务,方法划分为2个任务,一个是只管检测异常,一个只管给异常分类。他认为重要的有:①是几乎没权重的TA模块;②可以给视觉信号注入语义知识的SKI模块;③可以生成伪异常样本的NAS模块。
2024-08-07 15:21:38
1147
4
原创 HAWK:学习理解开放世界视频异常(HAWK: Learning to Understand Open-World Video Anomalies)
主要是对现有的数据集进行了改造(生成语言描述+QA对),然后是提出了结合运动模态的新方法HAWK,它生成的语言描述更关注于对异常的理解,并且更倾向于泛化到开放世界场景。
2024-07-30 22:46:31
791
原创 Holmes-VAD:基于多模态大语言模型的无偏且可解释的视频异常检测( Towards Unbiased and Explainable Video Anomaly Detection)
首先提出了Holmes-VAD方法来解决了目前VAD方法中存在偏差和缺乏解释性的问题,然后构建了VAD-Instruct50k数据集来验证了Holmes-VAD方法的有效性,在构建数据集时引入了高效的标注范式(单帧注释、事件片段生成、时间片段描述)
2024-07-27 21:49:59
3126
5
原创 VANE-Bench:用于对话式大语言模型的视频异常检测评估基准(Video Anomaly Evaluation Benchmark for Conversational LMMs)
本文主要提出了VANE-Bench数据集,它旨在评估Video-LMMs在VAD任务中的表现
2024-07-25 00:33:18
1522
原创 Windows系统连接Linux服务器时配置免密登录
想要VSCode连接服务器时不需要每次打开都得重复输入密码的话,就先把Windows系统连接服务器时的免密登录配置好,VSCode也就不需要了
2024-07-24 15:13:01
2155
原创 基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习(Robust Temporal Feature Magnitude Learning)
提出了RTMF方法,显著提高了对微小异常的辨别能力和样本的使用效率。
2024-07-23 21:08:49
1584
1
原创 不仅看,还要听:弱监督下的多模态暴力检测学习(Learning Multimodal Violence Detection under Weak Supervision)
本文主要研究弱监督下的基于视听两种模态下的大规模暴力检测,大规模是指提出了大规模暴力数据集XD-Violence,并且本文提出的方法可以用在离线检测和实时检测两种方面。
2024-07-15 10:30:47
2581
6
VadCLIP:将视觉语言模型应用于弱监督视频异常检测
2024-08-16
VAD-LLaMA 基于大语言模型的视频异常检测和解释
2024-08-13
开放词汇视频异常检测(Open-Vocabulary Video Anomaly Detection)
2024-08-07
HAWK:学习理解开放世界视频异常
2024-07-30
Holmes-VAD - 基于多模态大语言模型的无偏且可解释的视频异常检测
2024-07-27
Docker-利用DockerCompose部署cloud-demo微服务集群
2024-01-29
预训练多模态大语言模型通过 SkinGPT-4 提升皮肤病学诊断能力
2025-11-19
HiProbe-VAD:通过在免微调多模态大语言模型中探测隐状态实现视频异常检测
2025-11-18
无需训练的群体相对策略优化
2025-11-17
一种面向整体零样本视频异常分析的统一推理框架
2025-11-17
PANDA:通过代理型 AI 工程师迈向通用视频异常检测
2025-11-13
在大语言模型中将有效Token与视频异常对齐
2025-09-15
看、听、记与推理:具备长期记忆的多模态智能体
2025-09-05
AgentThink:一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架
2025-09-04
Pixel Reasoner:通过好奇心驱动的强化学习激励像素空间推理
2025-07-15
VLM-R³:面向增强多模态链式思维的区域识别、推理与精化
2025-07-15
Vad-R1:通过从感知到认知的思维链进行视频异常推理
2025-05-30
T2I-R1:通过语义级与图像 token 级协同链式思维强化图像生成
2025-05-10
Visual-RFT:视觉强化微调
2025-04-02
ACM MM 2025 Overleaf 模板指导
2025-03-08
AnyAnomaly: 基于大型视觉语言模型的零样本可定制视频异常检测
2025-03-11
HyperAD:学习弱监督音视频暴力检测在双曲空间中的方法
2025-03-19
遵循规则:利用大语言模型进行视频异常检测的推理
2025-02-14
VERA: 基于视觉-语言模型的解释性视频异常检测框架
2025-02-07
猴子爬山,用了奇/偶数步,有多少种方案
2022-09-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅