TC-LLaVA论文笔记

最新推荐文章于 2025-06-14 15:12:56 发布

0yumiwawa0

最新推荐文章于 2025-06-14 15:12:56 发布

阅读量1.1k

点赞数 13

分类专栏：计算机视觉文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yumiwawa19960506/article/details/142058285

版权

计算机视觉专栏收录该内容

6 篇文章

订阅专栏

RoPE 介绍

理解LLM位置编码:RoPE | Linsight

Motivation

在基于视频的 multimodal large language model 中，更好地利用视频提供的时序信息。

Method

Temporal-Aware Dual RoPE

之前的 RoPE 公式： $A_{(q_{T_m},k_{F_nV_z})}=Re[q_{T_m}k_{F_nV_z}e^{i(P(T_m)-P(F_nV_z))\theta}]$ ，在这种形式的公式里，每个 visual token 的编码时独立的，且无法区分哪些 visual token 属于同一帧，哪些属于不同的帧。
TAD-RoPE 在原本的 position id 的基础上，增加了 temporal position id：
$\begin{align} I_t(n)= \begin{cases} n,&if\ n<v_s, \\ v_s+\lfloor\frac{n-v_s}{m}\rfloor,&if\ v_s\le n\le v_e, \\ n-(v_e-v_s+1-\lfloor\frac{v_e-v_s}{m}\rfloor),&if\ n>v_e \end{cases} \end{align}$
调整后的位置编码为： $\hat{n}=n+\gamma\cdot I_t(n)$

Frame-wise Block Causal Attention Mask

通常语言模型中，采用后面的 token 能看到前面 token，但前面的 token 无法看到后面 token 的设计。这种设计在文本 token 中很自然，但是在 visual token 里会导致 visual token 交互不充分，因此本文尝试了几种不同的 token 设计。
截屏2024-09-09 13.44.15.png|400

实验结果

与 SOTA 相比

截屏2024-09-09 13.54.14.png

截屏2024-09-09 13.57.10.png

Ablation Studies

通过实验证明了 TAD-RoPE 及 Frame-wise Block Causal Attention Mask 的性能优势。

博客等级

码龄10年

12
原创

202
点赞

214
收藏

146
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: MONA论文笔记

最新评论

TC-LLaVA论文笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
MONA论文笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
RT-DETR论文笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
On Calibration of Modern Neural Networks论文笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Deformable DETR论文笔记
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。