FG-CLIP2(Fine-Grained CLIP 2)是 360 人工智能研究院开发的新一代
双语视觉 - 语言对齐模型,在 29 项全球基准测试中表现卓越,中英双语性能均居榜首。它不仅能 "看到" 图像内容,更能
精准理解细节,实现从 "看得见" 到 "看得清" 的质的飞跃。
- 细粒度对齐:突破性实现像素级图文匹配,能识别 "蕾丝花边袖口"、"左眼下方的痣" 等细节
- 双语原生支持:同时优化中英文理解,解决跨语言对齐不平衡问题
- 层次化感知:像人类视觉系统一样,同时把握全局场景与微观细节
- 高效推理:采用显式双塔结构,支持特征预计算和缓存,实现毫秒级响应,适合广告检索等高并发场景
FG-CLIP2 采用
显式双塔架构(继承自 SigLIP2),包含独立的图像编码器和文本编码器,通过对比学习实现特征对齐。
基于 ViT 架构,针对细粒度理解进行深度优化:
- 分词系统:采用多语言 Gemma 分词器(256K 词汇表),精准解析中英文复杂表达
- 输入处理:支持最长 196 个 token的文本输入(远超 CLIP 的 77 token),充分理解长描述
- 核心架构:基于 Transformer 的编码器,堆叠多层多头自注意力
- 输出:生成固定维度的语义向量,与图像特征在同一空间对齐
FG-CLIP2 采用
精妙的两阶段训练策略,模拟人类认知发展路径:
- 使用大规模中英双语图像 - 文本对
- 每张图像配备长短双文本描述:
- 短描述(约 20 词):捕捉核心内容(如 "一只白猫")
- 长描述(约 150 词 +):由多模态大模型生成,包含场景、属性、空间关系等细节(如 "一只趴在窗台上的白猫,阳光从右侧洒入,背景为绿植...")
- 目标:建立图像与文本的基础语义关联,形成全局理解
- 引入4000 万个边界框标注的区域 - 文本匹配数据
- 训练模型将文本描述精准锚定到图像特定区域
- 新增多种对比学习目标,包括文本内模态对比损失(TIC),增强相似描述区分能力
- 目标:实现像素级精准对齐,提升细节辨别力,如区分相似物体、识别局部特征
- 构建全局 - 局部双路径特征融合机制
- 模型既能把握图像整体场景,又能聚焦关键细节,实现多层次理解
- 解决传统模型 "只见森林不见树木" 或 "只见树木不见森林" 的局限性
- 在自注意力模块中引入上下文感知机制,智能分配计算资源
- 模型能自动聚焦图像中与文本描述相关的区域,以最小算力代价换取最大精度
- 对文本中提到的重点(如 "红色高跟鞋"),注意力会自动集中在图像对应区域
- 同时优化中英文对齐路径,确保两种语言表达在同一特征空间中获得同等高质量表示
- 针对中英语言特性设计专门对齐策略,解决跨语言理解不平衡问题
- 支持无缝切换中英文输入,保持一致的细粒度理解能力
- 内容审核:精准识别违规内容细节(如特定服饰违规)
- 电商搜索:用户输入 "蓝色碎花连衣裙,方领,收腰",可精确匹配商品图片
- 医学影像分析:识别病灶细微特征,辅助诊断
- 视觉问答:深入理解图像细节,提供精准回答
- 广告推荐:基于用户兴趣精准匹配图文内容,提升转化率
FG-CLIP2 通过
层次化双塔架构和
两阶段训练策略,实现了图文对齐从粗到精的跨越式发展。其核心优势在于不仅理解图像和文本的表面含义,更能
捕捉细节差异,达到像素级精准对齐。这种能力使其成为当前最先进的视觉语言模型之一,为 AI 视觉理解开辟了新天地。
注:本介绍基于 2025 年 10 月发布的 FG-CLIP2 论文《FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model》及官方技术文档。