介绍一下 FG-CLIP2 和其网络结构

原创已于 2025-11-25 17:37:04 修改 · 791 阅读

30 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2025-11-25 17:20:22 首次发布

机器视觉专栏收录该内容

190 篇文章

订阅专栏

FG-CLIP2：全球领先的双语细粒度图文对齐模型

FG-CLIP2（Fine-Grained CLIP 2）是 360 人工智能研究院开发的新一代 双语视觉 - 语言对齐模型，在 29 项全球基准测试中表现卓越，中英双语性能均居榜首。它不仅能 "看到" 图像内容，更能 精准理解细节，实现从 "看得见" 到 "看得清" 的质的飞跃。

核心定位与创新

细粒度对齐：突破性实现像素级图文匹配，能识别 "蕾丝花边袖口"、"左眼下方的痣" 等细节
双语原生支持：同时优化中英文理解，解决跨语言对齐不平衡问题
层次化感知：像人类视觉系统一样，同时把握全局场景与微观细节
高效推理：采用显式双塔结构，支持特征预计算和缓存，实现毫秒级响应，适合广告检索等高并发场景

网络架构详解

FG-CLIP2 采用 显式双塔架构（继承自 SigLIP2），包含独立的图像编码器和文本编码器，通过对比学习实现特征对齐。

1️⃣ 图像编码器（Vision Encoder）

基于 ViT 架构，针对细粒度理解进行深度优化：

输入处理流水线：
1. 多分辨率自适应策略：根据图像尺寸从 {128, 256, 576, 784, 1024} 中智能选择最佳分辨率，避免不必要的缩放，节省计算资源
2. Patch 分割：将图像切分为固定大小的图像块（如 16×16 像素）
3. 线性嵌入：通过卷积将每个 Patch 映射为向量（维度 d_model，如 768 或 1024）
4. 位置编码：添加可学习的位置信息，保留空间上下文
核心骨干： 多层 Transformer 编码器（层数因模型规模而异）
- 每个 Transformer 块包含：
  - 多头自注意力（MHSA）：捕捉全局依赖，让模型关注图像各区域关系
  - 前馈神经网络（FFN）：增强非线性表达能力
  - 残差连接 + 层归一化：提升训练稳定性，防止梯度消失
特征输出：
- 采用掩码注意力池化（MAP）替代传统全局池化，更精准提取关键区域特征
- 输出两种特征：全局图像向量（用于全局对齐）和密集局部特征图（用于细粒度对齐）
- 密集特征图为图像每个区域提供独立表示，支持像素级匹配

2️⃣ 文本编码器（Text Encoder）

分词系统：采用多语言 Gemma 分词器（256K 词汇表），精准解析中英文复杂表达
输入处理：支持最长 196 个 token的文本输入（远超 CLIP 的 77 token），充分理解长描述
核心架构：基于 Transformer 的编码器，堆叠多层多头自注意力
输出：生成固定维度的语义向量，与图像特征在同一空间对齐

网络结构对比表

组件	FG-CLIP2 实现	传统 CLIP 差异
整体架构	显式双塔 + 层次化对齐	双塔架构，缺乏细粒度对齐机制
图像编码器	ViT+MAP 池化 + 密集特征输出	可选 ViT/ResNet，仅全局特征
文本编码器	最大 196 token，Gemma 分词器	最大 77 token，常规分词器
分辨率策略	自适应选择 {128-1024}	固定分辨率 (如 224×224)
对齐粒度	全局 + 区域双层次对齐	主要全局对齐，细节捕捉弱
训练策略	两阶段递进（全局→细粒度）	单一阶段全局对比学习

训练创新：两阶段层次化学习

FG-CLIP2 采用 精妙的两阶段训练策略，模拟人类认知发展路径：

阶段一：全局语义对齐（Global Alignment）

使用大规模中英双语图像 - 文本对
每张图像配备长短双文本描述：
- 短描述（约 20 词）：捕捉核心内容（如 "一只白猫"）
- 长描述（约 150 词 +）：由多模态大模型生成，包含场景、属性、空间关系等细节（如 "一只趴在窗台上的白猫，阳光从右侧洒入，背景为绿植..."）
目标：建立图像与文本的基础语义关联，形成全局理解