多模态论文-入门到精通【更新中】
文章平均质量分 95
多模态论文带读-入门到精通多模态
努力还债的学术吗喽
211人工智能专硕,研究方向Video Caption,LLM,多模态,动漫国漫er
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【多模态必读】VideoCLIP:视频-文本对比学习&& RAT 检索增强训练 && 时间重叠策略
🔥 VideoCLIP论文深度解读:让视频真正"看懂"文字! 🔥花了整整一天啃完这篇2021 EMNLP的神作!VideoCLIP巧妙解决了视频和文本配对的老大难问题 🎯核心亮点我总结成三板斧:1️⃣ 时间重叠策略:抛弃死板的精确对齐,让视频片段和文本"模糊匹配",就像人说话和做动作本来就不同步2️⃣ 检索增强训练:不再随机找负样本,而是专门找"长得像但不是"的困难样本来训练,让模型练就火眼金睛3️⃣ 双向对比学习:视频找文本+文本找视频原创 2025-09-28 13:44:35 · 980 阅读 · 0 评论 -
【多模态前沿】2024 EMNLP VIEWS让AI秒变新闻主播: Entity-Aware News Video Captioning论文解读Notes
还在为视频配字幕发愁?来看这篇EMNLP 2024的VIEWS论文🔥!它能让AI自动识别新闻视频中的人物、地点,生成包含"布什总统访问利比里亚"这样的专业字幕,而不是"一个男人见另一个女人"😅。核心就是三步走:先用视觉模型抓实体,再用大模型查背景,最后融合生成。实测比传统方法提升30%性能!想让你的视频字幕更专业?这个方法必须学!💪原创 2025-09-28 13:45:13 · 1038 阅读 · 0 评论 -
【多模态必读】UniVL视觉-语言:一个模型搞定视频检索+字幕生成,5个损失函数的妙用【附公式详解】
🎯 还在为视频理解和生成任务训练两个模型发愁?UniVL用一个统一框架搞定!本文深入剖析UniVL的核心设计:**双流编码器**保证检索效率,**交叉编码器**实现深度融合,配合**5个精心设计的预训练目标**(含创新的CMFM掩码帧预测),在HowTo100M上预训练后,5个下游任务全面开花🚀。特别亮点:EnhancedV策略通过100%文本掩码强制模型学习视频表征,StagedP两阶段训练加速收敛。实测YouCook2检索R@1达28.9%,碾压同期工作!附详细公式推导和shape标注📊原创 2025-09-27 14:15:27 · 1023 阅读 · 0 评论 -
【多模态必读】VideoCaption:看视频说话!-CLIP4Caption论文精读:双模态预训练+Transformer微调,附公式详解
🔥 模型!看!视频!说话!本文深入解析CLIP4Caption论文,揭秘如何用CLIP增强的视频-文本匹配网络实现视频字幕生成!🚀 通过两阶段训练策略,先用对比学习预训练获得强文本相关视频特征,再微调Transformer生成字幕。集成策略超有意思,让多个模型互相评价选出最佳字幕。实战效果爆表!📈 包含详细公式推导、特征维度标注和关键技巧总结,适合深度学习爱好者收藏学习~原创 2025-09-27 14:16:09 · 959 阅读 · 0 评论 -
【多模态必读】看!图!说!话!2021 arxiv CLIPCaption: CLIP Prefix for Image Captioning
🔥看!图!说!话!模型!🔥。本文深入解读2021年arxiv上的ClipCap论文,这是一种巧妙的图像描述生成方法。与传统端到端训练不同,ClipCap冻结了预训练的CLIP视觉编码器和GPT-2语言模型,仅训练一个轻量级映射网络来连接两者🔥。文章详细剖析了两种训练策略:微调GPT-2获得更强表现力 vs 冻结GPT-2实现极致轻量。最有趣的是,这篇论文名为"Prefix"却实际采用了Prompt Tuning架构,展现了PEFT技术早期发展的有趣历史💡包含完整的方法流程图、实验对比表格等原创 2025-09-26 15:35:13 · 515 阅读 · 0 评论 -
【多模态必读】CLIP4Clip视频-文本对比学习检索
CLIP4Clip论文精读笔记!🔥 这篇工作巧妙地把CLIP这个图文预训练模型迁移到视频检索任务上,核心思路是把视频当作"帧序列"来处理。论文提出了三种相似度计算方式:无参数型(简单均值池化)、序列型(LSTM/Transformer捕获时序)、紧密型(跨模态交互)。实验发现一个有趣现象:在小数据集上,越简单的方法反而越好用!文中还探讨了2D vs 3D卷积、帧采样策略等实用技巧。2022在5个数据集上都刷新了SOTA,证明了"站在CLIP巨人肩膀上"的威力。适合想了解视频-文本检索的小伙伴参考~ 💪原创 2025-09-26 15:34:35 · 1040 阅读 · 0 评论 -
【多模态必读】BLIP论文逐行解读:揭秘Salesforce如何用自举策略刷新22年SOTA
如何用一个模型同时搞定图像理解和文本生成?BLIP作为视觉-语言预训练领域的里程碑工作,首次实现了理解与生成任务的统一建模。本文深入剖析BLIP的三大核心创新:MED多模态混合编解码器架构、CapFilt自举去噪机制、以及ITC/ITM/LM三重预训练目标。原创 2025-09-04 17:14:32 · 1010 阅读 · 0 评论 -
【多模态必读】全站最详细2023 ICML BLIP-2:Q-Former【视觉+文本】跨模态交互
🔥跨模态交互组件,Q-Former始祖,BLIP-2巧妙解决视觉-语言大模型训练成本高昂的痛点。通过创新的Q-Former架构,两阶段训练策略如何各司其职、32个Learnable Query如何实现信息瓶颈、三种注意力掩码怎样控制跨模态交互。更有大量实践insights:为什么要隔层插入交叉注意力?prefix text到底是不是泄露答案?原创 2025-09-25 18:16:36 · 1122 阅读 · 0 评论 -
【多模态必读】全站最详细2021 CVPR ClipBERT 视觉语言学习 Video-and-Language Learning精读笔记
🔥 CLIPBERT:用"偷懒"的方式让AI看懂视频,性能反而更强了!你有没有想过,训练AI看视频时用更少的数据,效果反而会更好?CLIPBERT就做到了这一点!这个来自CVPR 2021的研究颠覆了传统思路。以前的方法需要处理视频的每一帧,计算量巨大。而CLIPBERT采用"稀疏采样"策略,训练时随机抽取1-4个视频片段就够了,推理时才用16个片段。这就像考试时只复习重点章节,但考试成绩却比全书背诵的同学还要好。原创 2025-09-25 18:16:13 · 814 阅读 · 0 评论 -
2024 arxiv MLKD-CLIP:Distillation of CLIP for Open-Vocabulary ActionRecognition Reading Notes
本文为MLKD-CLIP阅读精读笔记。本文方法通过多层特征知识蒸馏提升CLIP模型在开放词汇动作识别中的性能。针对CLIP缺乏时序信息的问题,该方法将冻结的原始CLIP作为教师模型,微调后的CLIP作为学生模型。创新点包括:1)引入自注意力特征融合模块结合时序卷积,保持时序学习能力;2)逐层融合教师和学生模型的多层特征;3)蒸馏融合特征,使学生在全局和局部层面学习教师的多级特征。实验在UCF101等数据集上验证了该方法在未见动作识别中的优越性,取得了最佳准确率。原创 2025-06-07 14:48:51 · 1286 阅读 · 0 评论 -
NIPS 2021 ALBEF Align before Fuse视觉语言表示学习动量蒸馏【论文精读笔记】
📋 文章摘要:本文深度解读ALBEF (Align before Fuse)——NeurIPS 2021论文,一个突破性的视觉-语言预训练模型。🔥 核心创新1先对齐再融合:创新性地在跨模态融合前进行图像-文本表示对齐2动量蒸馏:利用教师模型伪目标改善噪声数据学习,提升训练稳定性3理论完备:基于互信息最大化提供坚实理论基础4工程优化:无需边界框标注,摆脱高分辨率图像依赖原创 2025-07-01 02:15:46 · 2247 阅读 · 0 评论 -
ECCV2024 ClearCLIP: Decomposing Method Notes
本文笔记记录了ECCV 2024论文ClearCLIP的Method的精读理解内容。方法部分首先介绍了ViT架构的残差注意力机制,分析了CLIP对比预训练中视觉与文本编码器的协同优化,并详述了开放词汇密集推理在语义分割中的应用流程。重点剖析了ClearCLIP的创新点:通过残差连接分析发现Transformer深层存在语义干扰,提出改进方案优化注意力机制。研究揭示了模型噪声来源,为提升密集预测任务性能提供了新思路。(149字)原创 2025-06-01 21:40:41 · 984 阅读 · 0 评论 -
2024 CVPR Video ReCap Recursive Captioning of Hour-Long Videos Methods Notes
本文深度解读CVPR 2024最新力作Video ReCap,这是首个专门针对层次化视频字幕生成的递归模型。传统视频字幕方法只能处理几秒钟的短片段,而Video ReCap突破性地实现了从1秒到2小时超长视频的多层次理解。**核心技术亮点:**- 递归视频-语言架构:通过层层递进的方式,从短片段字幕→中等段描述→长程视频摘要- 层次化课程学习:模拟人类认知过程,循序渐进地训练模型理解复杂视频结构 - LLM辅助监督:巧妙利用GPT等大模型生成伪标注,解决长视频标原创 2025-06-13 20:37:33 · 2122 阅读 · 0 评论 -
2017 Transformer原文【公式附代码手写】:Attention is All you need Reading Note【Transformer阅读笔记】
Transformer原文精读(个人笔记),附代码原创 2025-06-25 21:02:48 · 1408 阅读 · 2 评论 -
CVPR 2025 CLIP-Refine : Post-pretraining for Modality Alignment in Vision-Language Reading Notes
CLIP-Refine论文精读:高效解决跨模态特征对齐问题本文深入解读了CLIP-Refine这一创新性的后预训练方法,该方法专门针对CLIP模型中图像和文本特征间的"模态间隙"问题。CLIP-Refine通过两个核心技术实现突破:一是RaFA(随机特征对齐),引入随机参考点让不同模态特征在保持各自特色的同时趋向统一;二是HyCD(混合对比蒸馏),通过软标签机制平衡新知识学习与旧知识保留,避免灾难性遗忘。原创 2025-06-12 22:22:54 · 2386 阅读 · 0 评论
分享