
视觉语言模型
文章平均质量分 94
顾道长生'
时人不识凌云木,直待凌云始道高。
展开
-
(Neurocomputing-2024)RoFormer: 增强型 Transformer 与旋转位置编码
位置编码在 Transformer 结构中已被证明是有效的。它能够为序列中不同位置的元素之间的依赖关系建模提供有价值的监督。在本文中,我们首先探讨了将位置信息整合到基于 Transformer 的语言模型学习过程中的各种方法。然后,我们提出了一种新方法,称为旋转位置编码(Rotary Position Embedding, RoPE),以有效利用位置信息。具体而言,所提出的 RoPE 通过旋转矩阵对绝对位置进行编码,同时在自注意力计算中显式地融入相对位置的依赖关系。值得注意的是,RoPE 具备多种优越特性,原创 2025-02-14 20:52:02 · 1356 阅读 · 0 评论 -
从正则化视角来分析VLM的涨点策略
首先,CLIP的两个分支(文本和图像)分别得到的特征Ft和Fi,要经过L2 norm归一化,表示为Ft∥Ft∥2FtFi∥Ft∥2Fi从某种程度上讲,原创 2024-04-27 18:08:15 · 869 阅读 · 0 评论 -
(ICML-2021)从自然语言监督中学习可迁移的视觉模型
SOTA计算机视觉系统经过训练可以预测一组固定的预定目标类别。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前途的替代方案,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像对应的简单预训练任务是一种高效且可扩展的方法,可以在从互联网收集的 4 亿对(图像、文本)数据集上从头开始学习 SOTA 图像表示。预训练后,使用自然语言来引用学习的视觉概念(或描述新的视觉概念),从而实现模型零样本传输到下游任务。原创 2024-04-23 22:29:50 · 1102 阅读 · 3 评论