本文是LLM系列文章,针对《PLLaVA : Parameter-free LLaVA Extension from Images to Videos for Video Dense Captioning》的翻译。
摘要
视觉语言预训练显著提高了各种图像语言应用程序的性能。然而,视频相关任务的预训练过程需要非常大的计算和数据资源,这阻碍了视频语言模型的进步。本文研究了一种简单、高效、资源少的方法,用于调整现有的图像语言预训练模型,以实现密集视频理解。我们的初步实验表明,直接微调预训练的图像语言模型,将多帧作为视频数据集的输入,会导致性能饱和甚至下降。我们进一步的研究表明,这在很大程度上归因于学习到的高范数视觉特征的偏见。受这一发现的启发,我们提出了一种简单但有效的池化策略,以平滑沿时间维度的特征分布,从而减少极端特征的主要影响。新模型被称为Pooling LLaVA,简称PLLaVA。PLLaVA在现代基准数据集上实现了最新的最先进性能,用于视频问答和字幕任务。值得注意的是,在最近流行的Video ChatGPT基准测试中,PLLaVA在五个评估维度上的平均得分为3.48分(满分5分),比GPT4V(IGVLM)之前的SOTA结果高出9%。在最新的多选基准MVBench上,PLLaVA在20个子任务中的平均准确率为58.1%,比GPT4V(IGVLM)高14.5%。代码可在以下网址获得.
1 引言
2 相关工作
3 方法和分析
4 实验
5 结论
在这篇论文中,我们用一种简单但极其有效的方法,即PLLaVA,对将图像语言

订阅专栏 解锁全文
1448

被折叠的 条评论
为什么被折叠?



