TC-LLaVA论文笔记

RoPE 介绍

理解LLM位置编码:RoPE | Linsight


Motivation

在基于视频的 multimodal large language model 中,更好地利用视频提供的时序信息。


Method

Temporal-Aware Dual RoPE

之前的 RoPE 公式: A ( q T m , k F n V z ) = R e [ q T m k F n V z e i ( P ( T m ) − P ( F n V z ) ) θ ] A_{(q_{T_m},k_{F_nV_z})}=Re[q_{T_m}k_{F_nV_z}e^{i(P(T_m)-P(F_nV_z))\theta}] A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)P(FnVz))θ],在这种形式的公式里,每个 visual token 的编码时独立的,且无法区分哪些 visual token 属于同一帧,哪些属于不同的帧。
TAD-RoPE 在原本的 position id 的基础上,增加了 temporal position id:
I t ( n ) = { n , i f   n < v s , v s + ⌊ n − v s m ⌋ , i f   v s ≤ n ≤ v e , n − ( v e − v s + 1 − ⌊ v e − v s m ⌋ ) , i f   n > v e \begin{align} I_t(n)= \begin{cases} n,&if\ n<v_s, \\ v_s+\lfloor\frac{n-v_s}{m}\rfloor,&if\ v_s\le n\le v_e, \\ n-(v_e-v_s+1-\lfloor\frac{v_e-v_s}{m}\rfloor),&if\ n>v_e \end{cases} \end{align} It(n)= n,vs+mnvs,n(vevs+1mvevs⌋),if n<vs,if vsnve,if n>ve
调整后的位置编码为: n ^ = n + γ ⋅ I t ( n ) \hat{n}=n+\gamma\cdot I_t(n) n^=n+γIt(n)

Frame-wise Block Causal Attention Mask

通常语言模型中,采用后面的 token 能看到前面 token,但前面的 token 无法看到后面 token 的设计。这种设计在文本 token 中很自然,但是在 visual token 里会导致 visual token 交互不充分,因此本文尝试了几种不同的 token 设计。
截屏2024-09-09 13.44.15.png|400


实验结果

与 SOTA 相比

截屏2024-09-09 13.54.14.png

截屏2024-09-09 13.57.10.png

Ablation Studies

通过实验证明了 TAD-RoPE 及 Frame-wise Block Causal Attention Mask 的性能优势。

### Video-LLaVA介绍 Video-LLaVA是由北京大学元宇宙创新实验室团队开发的一个视频推理和语言理解框架[^2]。此框架利用最新的深度学习技术以及自然语言处理算法,提供给用户一种高效且精准的方式来理解和生成视频描述。 该模型代表了一个重要的进步,在于它成功地解决了传统方法中存在的一个问题——即将图像和视频编码至独立的特征空间内,造成两者间的一致性缺失。通过将视觉表示统一到语言特征空间中,Video-LLaVA实现了基础大型语言模型(LLM)向大视觉语言模型(LVLM)的成功转型,并展示了卓越的表现力。具体来说,Video-LLaVA不仅跨越五个图像问答数据集和四个图像基准工具包中的九个图像基准测试取得了优异的成绩;而且在诸如MSRVTT、MSVD等多个知名的数据集上也超越了其他同类产品,比如相较于Video-ChatGPT而言,其表现分别提高了5.8%、9.9%不等[^3]。 ### 项目地址 项目的官方GitHub仓库位于[Pku-YuanGroup/Video-LLaVA](https://github.com/PKU-YuanGroup/Video-LLaVA),这里可以找到更多有关该项目的技术细节和发展动态[^1]。 ### 使用方法概述 为了使用Video-LLaVA,建议按照如下指南操作: #### 安装依赖库 首先确保安装必要的Python环境和其他依赖项。可以通过pip命令来完成这些软件包的安装: ```bash pip install -r requirements.txt ``` #### 数据准备 准备好用于训练或评估的数据集。对于特定的任务类型(如视频分类),可能还需要额外下载预处理过的数据文件。 #### 运行示例脚本 查看`examples/`目录下的各种样例程序,从中挑选适合自己的应用场景并运行相应的Python脚本来启动实验过程。例如执行以下指令可尝试简单的预测任务: ```python from video_llava import predict_video_description video_path = "path/to/video.mp4" description = predict_video_description(video_path) print(f"The predicted description is {description}.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值