红苕稀饭666-优快云博客

原创 ES3论文阅读

该方法采用了一个简单的Siamese网络架构（孪生网络），包含学生模型（Student）和基于EMA（指数移动平均）更新的教师模型（Teacher）。：不要试图一次性从不对等的模态中学习所有信息，而是应该按照“易学（音频/共享） $\rightarrow$ 难学（视频/特有） $\rightarrow$ 协同（整体）”的课程表（Curriculum）进行渐进式学习。利用部分信息分解（PID）框架，将互信息分解为共享（R）、特有（$U_a, U_v$）和协同（S）部分 15151515。

2025-12-26 10:03:12 936

原创 Llama-AVSR论文阅读

利用现有的高性能预训练大模型（如Llama 3.1）和专用编码器（Whisper, AV-HuBERT），通过极少量的参数微调（LoRA + Projector），即可在视听语音识别任务上达到超越传统全量训练方法的SOTA性能。：保持预训练的音频/视频编码器和LLM冻结（frozen），仅训练模态特定的投影层（Projectors）和LLM中的LoRA模块。：在最大的公共AVSR基准数据集LRS3上，ASR和AVSR任务均取得了新的SOTA结果（WER分别为0.79%和0.77%）。

2025-12-26 08:53:34 855

原创 Whisper-Flamingo论文阅读

通过借鉴视觉-语言模型（Flamingo）的架构，利用“门控交叉注意力”机制，可以有效地将预训练的视觉特征（AV-HuBERT）注入到冻结的强力语音模型（Whisper）中。Whisper-Flamingo 达到了 SOTA 效果。：目前的AVSR模型通常在有限的视频数据上从头训练，或者简单地微调，这导致文本解码器的能力不如那些在大规模音频数据上训练的模型（如Whisper）。：音视听语音识别（AVSR）利用唇语视频来提高噪音环境下的识别性能，但高质量的视频数据（几千小时）远少于纯音频数据（数十万小时）。

2025-12-25 20:15:15 813

原创 MLCA-AVSR论文阅读

虽然引入视觉信息的视听语音识别（AVSR）可以提高鲁棒性，但目前的研究主要集中在融合已经充分学习的模态特征（即编码器的最终输出），而忽略了在模态特征学习过程中的上下文关系。模型主要由四个部分组成：音频/视觉前端（Frontends）、音频/视觉编码器（Encoders）、融合模块（Fusion Module）和解码器（Decoder）15。：融合后的特征 $h_{av}$ 是音频流输出 $h'_a$ 和视频流输出 $h'_v$ 的和 25252525。在视听语音识别中，仅仅在编码结束时融合特征是不够的。

2025-12-25 19:21:43 488

原创 AV-HuBERT论文阅读

该方法是一个迭代式的自监督学习框架。为了防止模型过度依赖音频（音频包含更丰富的语音信息），训练时以一定概率丢弃某一模态的全部输入（通常是把音频置零，迫使模型仅靠视频预测目标），这缩小了预训练（多模态）和下游微调（仅视频）之间的差异。现有的唇读（Visual Speech Recognition）模型严重依赖大量的文本标注数据才能达到可接受的精度（例如之前的SOTA模型使用了3.1万小时的转录视频）。使用上一轮训练好的 AV-HuBERT 模型提取的中间层特征进行聚类，生成更高质量的多模态目标 16。

2025-12-25 17:03:25 944

原创 Deep Audio-Visual Speech Recognition论文阅读

每个模态首先通过各自的前端（Front-end）提取特征，然后通过编码器（Encoder），最后根据模型变体（CTC 或 Seq2Seq）进行融合和解码，输出字符序列 101010101010101010。唇读（Lip Reading）即仅通过视觉信息识别说话内容，是一项极具挑战性的任务，主要因为存在“同音异义词”（homophones），即不同的字符可能产生相同的唇部动作。TM-seq2seq 由于对音频和视频有独立的注意力机制，对音画不同步（人工偏移几帧）具有天然的抵抗力，微调后几乎不受影响。

2025-12-24 20:38:22 873

原创 PVC论文阅读

它在细粒度短视频和长视频任务中实现了最先进的性能，同时在细节敏感的图像基准测试中保持了准确性。在图像任务上，增加图像重复次数对基线模型没有帮助，但对 PVC 模型（尤其是在 InfoVQA 等细节敏感任务上）显著提升了性能，因为重复的帧通过渐进式编码补充了详细信息。引入时间注意力（设置 (c)）缓解了信息损失，在需要空间细节的任务上保持了与基线模型相当的性能，并显著提升了长视频任务的性能。添加自适应压缩模块（PVC）进一步提升了所有任务的性能，尤其在长视频任务上，证明了其更好地利用了视频帧内的表示冗余。

2025-10-16 15:17:16 639

原创 LongVU论文阅读

LongVU是一个新颖的时空自适应压缩方案，能够有效解决长视频理解中LLM上下文长度的限制问题，通过跨模态查询和帧间相似性，在大幅减少视频token的同时保留了丰富的视觉细节。然而，处理长视频时，受限于LLM的上下文大小，仍然是一个重大挑战，导致现有方法难以有效处理和理解长时间视频，尤其是在视频内容不均匀的情况下（例如，静态与动态场景）。结论: 采用滑动窗口中第一帧作为锚帧进行空间token压缩的策略（LongVU默认）表现略优于采用中间帧或基于帧变化自适应选择锚帧的策略，且压缩率相似。

2025-10-15 19:15:45 854

原创 DyCoke论文阅读

在后续的解码步骤中，如果某个被剪枝的token的注意力分数重新升高，它会被动态地“召回”到活跃的KV缓存中。通过一个无需训练、即插即用的两阶段动态压缩框架DyCoke，可以在大幅提升推理速度、降低显存占用的同时，保持甚至超越原始模型的性能，为实现快速、高效的视频大语言模型提供了切实可行的vv。，模型都会重新评估当前所有视觉token的重要性（基于注意力分数），然后只保留最重要的top-p%的token在KV缓存中用于下一步的计算。仅保留 I_p 对应的token在活跃的KV缓存中，用于下一步的注意力计算。

2025-10-14 16:32:26 387

原创 HICom论文阅读

其他模型的token数量（例如，相比LLaVA-Video的6272个token，HICom只需1328个），取得了更高的平均分，证明了其压缩效率和性能优势。HICom由于其高效的压缩机制，在推理时可以轻松扩展到更多的帧数（如从32帧扩展到128帧），从而在处理中长视频时性能提升明显，展现了良好的泛化能力。数据集（包含“指令-描述”对），来预训练整个压缩模块（包括指令注入部分）。实验证明，增加了新的条件化预训练阶段后，模型在所有基准上的性能都有一致的提升（平均1.17%），验证了该阶段的必要性。

2025-10-14 11:34:56 419

原创 LLaVA-OneVision论文阅读

实验结果（如Table 4和5中“SI”模型与最终模型的对比）表明，在进行了OneVision阶段的混合数据训练后，模型在多图像和视频任务上的性能得到了显著提升，证明了该训练策略的有效性。更重要的是，这种联合训练不仅能提升各个场景的性能，还能通过任务迁移和组合，催生出单一专用模型所不具备的、全新的“涌现能力”，为构建更通用的视觉助手铺平了道路。提出了一套分阶段的课程学习策略（Stage-1, 1.5, 2），从基础的图文对齐，到注入高质量知识，再到大规模多场景指令微调，逐步提升模型的综合能力。

2025-10-09 16:40:58 445

原创 LLAVA-MINI论文阅读

由于每帧仅需1个token，LLaVA-Mini可以高效处理更多视频帧（例如1fps），相比于那些因token数量限制而只能稀疏采样几帧的模型（如Video-LLaVA），它能更好地理解视频的时序和内容，在多个视频基准上取得SOTA性能，甚至能处理长达数小时的视频。LLaVA-Mini设计了一个“预融合模块”，让文本token在进入LLM主干之前，就与所有的原始视觉token进行交互，提前完成信息融合。一旦信息融合完成，在LLM的后期层，注意力就主要集中在文本token之间，视觉token几乎被“忽略”。

2025-10-09 15:20:52 765

原创 LLaVA-Video论文阅读

该方法为不同的帧分配不同数量的视觉token，一些关键帧（slow path）保留更多细节，而其他帧（fast path）则高度压缩，从而在有限的显存预算内处理多达3倍的视频帧。实验清晰地显示，在基线模型上仅仅加入LLaVA-Video-178K数据集，就能在各项评测（尤其是需要时间理解的in-domain任务）上带来巨大的性能提升（例如在NExT-QA上提升了31.9%），验证了该数据集是性能提升的关键。同时，研究也证明了对于复杂的视频任务，输入更多的帧数是持续提升性能的有效途径。这是本文最核心的创新。

2025-10-07 19:39:00 681

原创 LLaVA-NeXT-Interleave论文阅读

在训练时，随机采用两种图片token的放置方式：一种是严格按照文本中的<image>占位符插入（interleaved format），另一种是将所有图片token前置到文本的开头（in-the-front format）。为了实现这一构想，研究者们精心整理和构建了一个名为M4-Instruct的大规模指令微调数据集，包含约118万个样本，覆盖了M4四大领域下的14种任务和41个数据集，为模型提供了学习这些综合能力的基础。，例如将在多图任务中学到的“找不同”能力迁移到视频任务中，这是专用模型无法做到的。

2025-10-06 20:32:44 905

原创 Video-of-Thought论文阅读

实验证明MotionEpic在STSG解析任务（如物体定位、关系分类、动作定位）上达到了与专用SOTA模型相当甚至接近人类的水平，这证实了其具备VoT框架所需要的坚实感知基础。在零样本场景下，VoT相比标准CoT的提升更为明显，这表明该框架具有很强的泛化能力，能够处理未见过的数据集上的复杂认知任务。利用MotionEpic的细粒度定位能力，生成这些目标在视频中的时空轨迹，以部分STSG的形式表示。分析问题，识别出需要在视频中重点关注的关键目标（如“红色的卡车”、“穿蓝色衣服的男人”）。

2025-10-05 20:41:31 847

原创 M-LLM Based Video Frame Selection for Efficient Video Understanding论文阅读

然而，这种“一刀切”的方法可能会丢失视频关键片段中的重要视觉信息，导致下游的大模型没有足够的信息来正确回答与视频内容相关的问题。通过创新的伪标签生成策略解决了训练数据缺失的难题，并能以即插即用的方式，显著提升现有视频大模型的问答性能和推理效率，尤其是在处理长视频时。最后，使用带非极大值抑制（NMS）的贪心算法从这些分数中选出最重要且信息不冗余的k帧（例如8帧或16帧）。实验表明，使用选择器挑选少量帧（如4帧）的性能，可以超过使用均匀采样挑选更多帧（如8帧）的性能，同时推理速度更快，验证了其高效性。

2025-10-05 16:57:31 866

原创 DynImg论文阅读

在强调时空理解的MVBench测试中，模型在大多数类别上取得了最佳性能，尤其是在对运动敏感的任务上提升显著，如“运动方向”(+21.0%)、“运动计数”(+15.0%)和“运动属性”(+26.5%)，这直接证明了该方法对动态信息的捕捉能力。这与传统方法在高级特征（token层面）进行交互的方式形成对比，DynImg在像素/图像块（pixel/patch）级别就促进了时空信息的融合，从而避免了早期特征提取过程中的信息损失。最终的旋转角度是这四个维度坐标的加权和，其中H, W, T三个维度的权重是可学习的。

2025-09-29 18:51:07 570

原创 How Can Objects Help Video-Language Understanding?论文阅读

另一种是使用视频字幕（caption），这种方法虽然数据高效，但会丢失视频中精细的时空信息（例如物体的精确位置和运动轨迹）。这些不同的模态信息，特别是经过“边界框适配器”处理后的物体信息，被一同送入一个大语言模型（LLM）的主干网络中。论文推测，预训练的LLMs在其海量的语言数据训练过程中，已经内在地学习到了对空间关系的理解能力（spatially aware）。将坐标直接表示为它们词汇表中的文本（数字），可以直接复用这种已有的能力，而无需从头学习一个投影层来理解空间含义。这是当前主流的做法。

2025-09-29 15:19:29 662

原创 RISE论文阅读

现有模型的一大痛点是它们容易学习到与特定领域强相关的特征（domain-specific features），例如照片的背景、艺术画的笔触等，这导致模型在新领域上性能急剧下降。该方法的总体流程 (Pipeline) 是训练一个学生模型（如 ResNet），其总损失函数由三部分加权组成：标准的监督学习损失、传统的知识蒸馏损失，以及本文提出的核心——跨域距离损失。：论文创新性地提出，利用一个大型的、预训练好的视觉-语言模型（特指 CLIP）作为“教师模型”，来指导一个更小的“学生模型”的学习。

2025-09-28 19:42:07 662

原创 CustomKD论文阅读

知识蒸馏（Knowledge Distillation, KD）是一种很有前景的技术，可以将大型教师模型（LVFMs）的知识迁移到小型的学生模型（边缘模型）上，以在不增加推理成本的情况下提升其性能。论文观察到一个关键现象：当教师模型从一个较小的版本（如ViT-S）升级到一个更大的版本（如ViT-L）时，教师自身的性能提升很明显，但通过蒸馏带给学生模型的性能增益却非常有限。一个预训练好的大型教师模型（LVFM），一个预训练好的小型学生模型（边缘模型），少量有标签数据 DL，大量无标签数据 Du。

2025-09-28 19:06:06 812

原创 RKD论文阅读

在Cars 196数据集上，使用RKD训练的小学生模型（ResNet18-128）的性能（82.50%）甚至远超强大的教师模型（ResNet50-512）的性能（77.17%）。: 知识蒸馏（Knowledge Distillation, KD）是一种有效的方法，旨在将一个复杂的“教师模型”学到的知识迁移到一个轻量的“学生模型”中。神经网络中知识的核心，不仅在于它对单个样本的映射能力，更在于它为整个数据空间建立的。ψ(·)，用它来计算这些N元组的结构关系信息（例如，计算一对样本的距离，或三个样本的夹角）。

2025-09-28 16:58:40 965

原创 KD论文阅读

因此，核心问题是如何将一个强大的集成模型（或一个非常大的单一模型）的知识“压缩”到一个更小、更高效、易于部署的单一模型中，同时尽量不损失其性能。它能够将一个复杂模型（或模型集成）所学到的“暗知识”提炼并迁移到一个更小、更快的模型中，使得高性能模型在资源受限环境下的部署成为可能，是连接模型研究与实际应用的重要桥梁。其核心思想是，使用一个已经训练好的、复杂的“教师模型”（cumbersome model）来指导一个轻量的“学生模型”（distilled model）的训练。

2025-09-28 16:33:17 797

原创 DKD论文阅读

它关注的是模型在犯错时，认为“哪个错的更靠谱一些”的细粒度知识，即“暗知识”。作者发现，经典的知识蒸馏损失（由Hinton提出）是一个高度耦合（Coupled）的公式，这种耦合性（1）抑制了非目标类别知识的有效传递；（2）限制了平衡不同知识成分的灵活性。当前最先进的知识蒸馏（KD）方法主要集中于从中间层提取复杂的深度特征进行蒸馏，而基于模型最终输出（logits）的蒸馏方法的重要性被大大忽略了。基于上述分析，提出一个新的、解耦的损失函数，用独立的超参数α和β取代原来的耦合项，从而更灵活地进行知识蒸馏。

2025-09-28 15:52:08 630

原创 Logit论文阅读

考虑到学生模型和教师模型之间存在巨大的容量差异，让一个轻量级的学生模型去拟合重量级教师模型的logit数值是非常困难且不必要的，这反而限制了学生模型的性能。研究发现，学生真正需要学习的是教师logit之间的“内在关系”（例如，哪个类别的logit最高，次高，以及它们之间的相对差异），而非其绝对数值。一个简单的Z-score标准化预处理可以有效解决该问题，让学生只关注真正重要的“关系”知识，从而为各种基于logit的蒸馏方法带来稳定的性能提升。该方法有效缓解了“大模型教师不一定教出好学生”的问题。

2025-09-28 15:32:43 729

原创 GA论文阅读

它不再依赖固定的、手工设计的损失函数来迁移知识，而是通过引入一个“教学助理”（判别器），让学生网络在对抗中动态地、自适应地学习模仿教师网络的内部特征表达。而使用本文方法训练的学生网络特征（c）分布清晰，各个类别的边界明确，与教师网络（a）的特征分布非常相似，证明了方法的有效性。: 借鉴Hinton的方法，让学生网络柔化的输出 τ(os) 模仿教师网络柔化的输出 τ(oT)，通过交叉熵 H(τ(os), τ(oT)) 来实现。训练结束后，判别器被丢弃，训练好的学生网络即为最终得到的便携式模型。

2025-09-28 15:12:33 639

原创 DHO论文阅读

在ImageNet的低资源（low-shot，1%和10%标签）半监督设置下（表4），DHO（使用ViT-L/14作为学生模型）的性能超过了之前所有方法，分别将1%和10%标签下的准确率记录刷新了3%和0.1%，同时使用的模型参数更少。该框架的核心是为学生模型引入两个独立的预测头：一个监督头（CE Head）专门从有限的标注数据中学习，另一个蒸馏头（KD Head）专门学习教师模型在所有数据（包括未标注数据）上的预测。：相比于传统的单头蒸馏方法，DHO在11个不同的数据集上都取得了显著的性能提升。

2025-09-28 14:49:00 1027

原创 Ttimesuite论文阅读

它整合了 15 个现有数据集，并创建了 2 个新数据集，覆盖了 9 类与时间高度相关的任务，如：时间视频定位、密集视频字幕、视频摘要、步骤定位、高光检测等。这种方法的初始化很巧妙，等效于平均池化，但为后续微调提供了更大的灵活性。最后，携带了时间信息的视觉令牌序列与用户的文本问题（query）拼接在一起，共同作为 LLM 的输入，LLM 最终生成答案。: 逐步增加 TimePro 中的不同任务数据，模型的长视频理解和时间定位能力都随之稳定提升，证明了高质量、多样化的时间中心数据是有效的。

2025-09-26 11:03:41 1005

原创 sparseVLM论文阅读

现有的解决方法通常需要训练一个额外的网络来修剪冗余的视觉令牌，或者对模型进行微调，这不仅增加了成本，而且很多方法在剪枝时忽略了文本提示（prompt）的指导作用，导致剪枝的针对性不强。它通过智能地利用文本提示来指导视觉令牌的剪枝，并结合自适应剪枝率和令牌回收机制，在大幅降低计算量和延迟的同时，最大限度地保留了模型的原始性能，为在资源受限设备上部署强大的VLM提供了实用的解决方案。在LLM解码器的每一层，都执行一次自适应的稀疏化操作，具体包括：计算视觉令牌重要性、确定剪枝数量、执行剪枝，并回收被剪枝的令牌。

2025-09-26 10:23:37 2337

原创 VideoChat-Flash论文阅读

其核心困难在于，长视频会产生海量的视觉Token（例如，Gemini 1.5-Pro处理一小时视频会产生近百万Token），这带来了巨大的计算和内存开销，使得模型难以高效地理解和处理长视频的上下文信息。在处理10000帧的长视频时，VideoChat-Flash的计算量（FLOPs）比LongVILA低了两个数量级，并且是唯一一个能在一张A100-80G显卡上完成推理的模型，而其他模型均因显存溢出（oom）而失败（见Table 6）。在少量数据上对视觉编码器进行高分辨率微调，提升模型对高清视频的感知能力。

2025-09-25 21:06:29 5230

原创 Moviechat论文阅读

使用一个预训练的、基于图像的ViT模型（如EVA-CLIP的ViT-G/14）和一个Q-former（来自BLIP-2），以滑动窗口的方式逐帧提取特征。同时，对记忆模块的各个超参数（如长短期记忆的长度、合并的长度等）进行了实验，验证了当前参数选择的合理性。最后，根据用户的提问模式（全局理解或针对某个时间点的理解），模型会整合长期记忆和/或短期记忆，通过一个投影层（Q-Former）输入到大语言模型中，生成最终的回答。：经过压缩的、稀疏的视频记忆Token，这些Token被存入长期记忆中。

2025-09-25 20:47:59 1005

原创 MotionSight论文阅读

本文的核心信息是：通过巧妙且无需训练的视觉预处理技术（如模拟“聚光灯”和“运动模糊”），可以有效“解锁”并增强现有MLLMs对视频中复杂、细微动态信息的感知和理解能力。针对物体运动，该方法首先利用现有的检测和跟踪模型定位运动物体，然后通过算法调暗背景、高亮运动物体，形成“聚光灯”效果。: 该模块通过动态时间聚合算法稳定并合并轨迹中的边界框，然后应用“视觉聚光灯”技术，即保留边界框内的原始像素，同时将框外的背景区域调暗。根据用户问题，将复杂的视频运动分解为“物体运动”和“相机运动”两个独立的子问题进行处理。

2025-09-25 16:48:11 650

原创 Efficient Motion-Aware Video MLLM论文阅读

通过精心设计的GOP编码器，可以在不增加token负担的情况下，将抽象的运动信息有效融入具象的空间表征中，从而实现视频MLLM的性能与效率双提升。：在多个公开的视频问答基准上进行了评估，包括MSVD-QA、MSRVTT-QA、ActivityNet-QA，以及长视频理解基准VideoMME和本文提出的运动理解基准MotionBench。：在MSVD-QA、ActivityNet-QA等多个基准上，EMA的性能超越了之前依赖帧采样的SOTA模型（如Video-LLaVA），证明了其方法的优越性。

2025-09-25 16:19:34 623

原创 VideollaMA 3论文阅读

因此，模型训练的前三个阶段都聚焦于利用大规模、高质量的图文数据来构建强大的通用视觉理解能力，在此基础上，最后一个阶段再专注于视频能力的提升。这样做的好处是充分利用了更容易获取且质量更高的图文数据，为视频理解打下了坚实的基础，这与那些早期就大量依赖视频数据的工作形成了鲜明对比。其成功的核心在于创新的“以视觉为中心”方法论：首先利用海量、优质的图文数据构建一个极其稳固的通用视觉理解地基，然后在此之上高效地扩展出顶尖的视频理解能力。这使得视频的表示更紧凑、更精确，并显著节省了计算资源。

2025-09-25 15:41:11 1129

原创 AKS论文阅读

这种简单的采样方式很可能会丢失包含关键信息的帧，从而导致模型对视频内容的理解错误，给出不正确的答案。在当前的桶内，计算所有帧的平均分s_all和得分最高的M帧的平均分s_top。比较AKS (ADA) 与其他采样策略，如均匀采样(UNI)、只看相关性的顶峰采样(TOP)和只看覆盖度的分桶采样(BIN)的效果。AKS算法根据所有帧的相关性分数，执行一个递归的“判断-分裂”（Judge-and-Split）策略，来决定最终选择哪些帧。，提供了一个非常有效的预过滤方案，能显著提升模型对长视频的理解能力。

2025-09-24 21:03:03 431

原创 Koala论文阅读

通过将全局上下文z_key与一组可学习的“片段查询向量”相加，并注入到QFormer的查询（Query）中，迫使模型在处理当前片段时，能主动关注那些与视频整体目标相关的视觉特征。这是一种轻量级的微调方法，不仅显著提升了模型的长视频理解能力，还意外地增强了其短视频识别能力，证明了该方法的普适性和有效性。最后，将代表全局上下文的z_key、代表跨片段上下文的z_inter以及用户问题的文本Token拼接在一起，送入大语言模型（LLM）中，生成最终的答案。将该片段的帧和上一步得到的全局z_key一起送入。

2025-09-24 15:02:55 479

原创 Video-XL-2论文阅读

我们的双层KV解码策略继续以块的形式管理KV缓存。在解码过程中，我们根据每个视频块与特定文本查询的相关性，选择性地重新加载每个视频块的密集或稀疏KV。原本的dense KV被划分成块以及pooling过后得到稀疏KV，query进来相似度搞得用dense KV，相似度低的用sparse KV。Video-XL-2能够处理高达10,000帧的视频并保持强劲性能，而之前的Video-XL模型只能处理2048帧（图5）。在所有评估模型中，Video-XL-2的FLOPs最低，实现了效率与性能的最佳平衡。

2025-09-23 14:30:55 827

原创 Video-XL-Pro论文阅读

接下来，对于每个视频样本，该算法对20帧视频进行均匀采样，利用SigLIP算法计算帧内余弦相似度，并根据预定义的阈值，对每个子集进行压缩，过滤掉语义冗余度高的视频，最后保留具有信息强度的高质量视频，以提高训练效率。：在只有3B参数的情况下，Video-XL-Pro在MLVU、Video-MME等多个基准上全面超越了大多数7B参数的开源模型，甚至在某些指标上超过了GPT-40等专有模型，展示了其卓越的性能和效率。结论是，使用SGM的模型性能优于使用随机掩码的模型，说明SGM能有效引导模型关注关键区域。

2025-09-22 11:43:38 913

原创 Video-XL论文阅读

对视频中信息密集的部分形成小的间隔;对视频中信息稀疏的部分形成大的间隔进行粗粒度压缩），它将间隔内的视觉信息（即来自其先前视觉令牌的原始KV）汇总成它们相关联的KV。：实验分析了不同数据源的贡献，发现图像数据有助于提升模型的整体和单细节理解能力，而专门设计的VICO数据集即使样本量不大，也能极大地增强模型对长视频的时序推理能力。：在7B参数规模下，Video-XL在几乎所有长视频基准测试中都取得了开源模型的最佳性能，甚至在MLVU Dev任务上超过了GPT-4o等强大的闭源模型。时的大量成本的限制。

2025-09-21 16:32:56 868

原创 AMMKD论文阅读

如果梯度方向冲突（一个想让参数增大，另一个想减小），该机制会寻找一个“帕累托最优”的更新方向，这个方向能同时兼顾所有教师的指导，同时最大程度地避免冲突，从而自适应地调整每个教师的实际影响力。结论是，相比基线模型，“多教师”（MT）和“动态权重选择”（DWS）策略都带来了显著的性能提升，而同时使用两者（MT + DWS）的效果最好。最终通过一个组合的损失函数来指导学生模型的训练。，动态地调整每个教师模型在训练过程中的影响力（权重），从而有效减少不同教师之间的指导冲突和噪声，引导学生模型朝向更优的方向学习。

2025-09-16 20:39:39 941

原创 VL2Lite论文阅读

在所有测试的轻量级模型（ResNet-18, MobileNet-V2等）和所有数据集上，使用VL2Lite都带来了稳定且显著的性能提升（例如，在CUB-200数据集上，ResNet-18的准确率提升了6.43%）。3.为了弥补VLM的高维特征空间和轻量级模型的低维空间之间的差距，我们引入了知识压缩层，该层有效地将VLM的丰富表示压缩成适合学生模型的格式，促进了高效的知识传递。1.VL2Lite通过利用VLM中固有的丰富的视觉和语言表示，无需额外的教师培训，简化了训练管道并增强了学生模型的表示能力。

2025-09-11 20:21:55 1010

空空如也

空空如也