论文信息
题目:EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation
EAGLE:基于特征聚合学习的对象中心无监督语义分割
论文创新点
- EICue的引入:论文提出了EICue,一种基于特征基的谱技术,通过从深度图像特征的语义相似性矩阵和图像的颜色亲和力中导出的特征基,提供语义和结构线索。
- 对象中心对比学习框架:论文设计了一个对象中心的对比学习框架,利用EICue的谱基构建鲁棒的对象级特征表示。
- 可微特征聚类:论文提出了一种可微特征聚类方法,通过优化聚类中心的损失函数,使得模型能够动态调整特征基和对象语义。
- 多层次注意力与特征间隙分析:论文通过多层次注意力机制和特征间隙分析,优化了特征基的选择和聚类过程。
摘要
语义分割本质上依赖于大量的像素级标注数据,这促使了无监督方法的发展。其中,利用自监督视觉Transformer(ViT)进行无监督语义分割(USS)在表达深度特征方面取得了稳步进展。然而,对于包含复杂对象的图像进行语义分割时,一个主要的挑战仍然存在:在补丁级特征中缺乏显式的对象级语义编码。这一技术限制通常导致对具有多样结构的复杂对象分割不充分。为了解决这一问题,作者提出了一种新颖的方法——EAGLE,该方法强调对象中心的表示学习,用于无监督语义分割。具体来说,作者引入了EICue,这是一种通过从深度图像特征的语义相似性矩阵和图像的颜色亲和力中导出的特征基来提供语义和结构线索的谱技术。此外,通过将对象中心的对比损失与EICue结合,作者引导模型学习具有图像内和图像间对象特征一致性的对象级表示,从而提高了语义准确性。在COCO-Stuff、Cityscapes和Potsdam-3数据集上的大量实验表明,EAGLE在复杂场景中实现了准确且一致的语义分割,达到了最先进的USS结果。
关键字
无监督语义分割,对象中心表示学习,特征聚合,对比学习,视觉Transformer
3. 方法
初步
未标注图像:作者的方法完全基于一组图像,没有任何标注,记为,其中是小批量中的训练图像数量。作者还利用光度增强策略来获得增强图像集。
预训练特征:然后,对于每个输入图像,作者使用自监督预训练的视觉Transformer作为图像编码器,从最后三个块中获取层次注意力关键特征,记为,,,其中、、分别是倒数第三层、倒数第二层和最后一层。然后,作者将它们连接成一个单一的注意力张量。同样,作者对增强图像应用相同的程序,并获得其注意力张量。
语义特征:尽管包含基于注意力机制的对象结构信息,但这被认为不足以直接用于推理。因此,为了进一步细化特征,作者计算语义特征和,其中是一个可学习的非线性分割头。为简洁起见,补丁总数记为,简称为。
推理:在推理时,给定一个新图像,其语义特征成为进一步聚类的基础,用于最终的语义分割输出,采用传统的评估设置,如K-means聚类和线性探测。因此,与先前的基于预训练特征的USS工作一样,训练以无监督的方式输出强语义特征是当代USS框架的基本框架。接下来,作者描述了图2中的流程,该流程对应于作者为生成强大的对象级语义特征所做的贡献。
通过特征聚合模块生成EICue
直觉告诉我们,“语义上合理的”对象级分割是精确捕捉对象结构的像素组,即使在复杂的结构变化下也是如此。例如,汽车分割必须包含其所有部分,包括挡风玻璃、车门、车轮等,这些部分可能以不同的形状和视角出现。然而,在没有提供对象级语义的像素级标注的情况下,这成为一项极具挑战性的任务,即在没有任何对象级结构先验的情况下推断出潜在结构。
基于这一认识,作者的模型EAGLE首先旨在从特征相似性矩阵的特征基中导出一个强大而简单的语义结构线索,即EICue,如图3所示。具体来说,作者使用著名的谱聚类来获取无监督特征表示,捕捉处理复杂模式数据的潜在非线性结构。这种方法经典地仅在颜色空间中操作,但可以轻松扩展到利用从任何特征构建的相似性矩阵。作者观察到,这种谱方法对于复杂的真实世界图像特别有用,如图4所示。
EICue构建:如图3所示,作者详细描述了构建EICue的过程。整体框架通常遵循经典的谱聚类:(1)从邻接矩阵,(2)构建图拉普拉斯矩阵,(3)对进行特征分解,以导出特征基,从中使用特征特征进行聚类。下面作者将描述每个步骤。
3.2.1 邻接矩阵构建
作者的邻接矩阵由两个部分组成:(1)颜色亲和矩阵和(2)语义相似矩阵。
(I) 颜色亲和矩阵:颜色亲和矩阵利用图像的RGB值。颜色亲和矩阵通过颜色距离计算。它利用补丁之间的欧几里得距离,其中和是图像中的特定补丁位置。这里,表示的调整大小版本,从其原始图像分辨率缩放到补丁分辨率,以确保与其他邻接矩阵的维度兼容。生成的颜色亲和矩阵因此捕捉了基于颜色的补丁之间的成对关系。具体来说,作者使用RBF核作为距离函数,其中是一个自由超参数。此外,为了确保只有附近的补丁影响彼此的亲和值,作者对补丁对的最大距离进行了硬约束,使得作者只计算具有预定义空间距离的补丁对之间的亲和值。
(II) 语义相似矩阵:语义相似矩阵记为,由张量与其转置的乘积形成。张量是通过从预训练视觉Transformer的最后三层中分层连接关键注意力特征,并通过分割头处理得到的。
(III) 邻接矩阵:最终的邻接矩阵是和的和:,这也适用于。作者的邻接矩阵融合了高级颜色信息和基于网络的深度特征,以表征语义关系。使用基于图像的保留了图像的结构完整性,并补充了图像的上下文信息。随后,结合可学习张量用于进一步增强了这一方面,增强了对象的语义解释,同时不损害结构完整性,并作为作者学习过程的重要线索。
3.2.2 特征分解
为了基于构建EICue,创建了拉普拉斯矩阵。形式上,拉普拉斯矩阵表示为,其中是的度矩阵,定义为。在作者的方法中,作者使用归一化拉普拉斯矩阵以增强其聚类能力。对称归一化拉普拉斯矩阵定义为。然后,通过对进行特征分解,计算特征基,其中每一列对应一个唯一的特征向量。然后,作者提取对应于个最小特征值的个特征向量,并将它们连接成,其中第行对应于第个补丁的维特征特征。
3.2.3 可微特征聚类
在获得特征向量后,作者执行特征向量聚类过程,并提取EICue,记为。为了聚类特征向量,作者利用基于余弦距离的迷你批量K-means算法,记为。聚类中心由可学习参数组成。为了学习,作者进一步训练了一个损失函数,定义如下:
其中表示预定义的类别数,,和表示和的第个补丁和第个聚类数。作者对增强图像应用相同的程序以获得。通过最小化,作者可以获得更有效的聚类中心。然后,作者获得EICue为
随着聚类中心精度的提高,EICue有助于将补丁映射到其对应的对象,基于语义结构。这作为一个有意义的线索,强调了不同对象之间的语义区别,从而增强了特征嵌入的判别能力。
基于EICue的ObjNCELoss
对于成功的语义分割任务,不仅需要准确分类每个像素的类别,还需要聚合对象表示并创建反映对象语义表示的分割图。从这个角度来看,在对象中心视图中学习关系在语义分割任务中尤为重要。为了捕捉对象之间的复杂关系,作者的方法结合了一种对象中心的对比学习策略,称为_ObjNCELoss_,由EICue指导。该策略旨在细化特征嵌入的判别能力,强调不同对象语义之间的区别。在继续之前,作者将投影特征和映射到线性投影头,从重塑的和中导出。虽然和的实际维度大小相同,但为了便于解释,作者使用不同的符号。
3.3.1 对象级原型
为了从投影特征中提取代表性的对象级语义特征,作者基于EICue中的对象构建可适应的原型。正如作者接下来描述的,语义上具有代表性的原型成为锚点,用于拉近具有相似语义的对象,同时推开不同的对象。
让作者描述如何导出,它表示从中提取的对象语义。作者首先通过投影特征和给定的更新对象级原型,是从聚类特征基中导出的。形式上,对于从中获得的每个对象,掩码定义为如果,否则为,其中表示中的每个位置。然后,将掩码应用于投影特征张量得到,其中表示哈达玛积,表示中对应于对象的特征表示集合。接下来,作者计算中位数以从中选择一个向量,然后该向量成为原型。让为的索引集,仅考虑对象的索引。表示的第个特征向量。然后,从掩码张量中提取的原型为
因此,充当对象的语义向量,作为后续对象中心对比损失的锚点。
3.3.2 对象中心对比损失
一旦作者计算出原型,作者就朝着原型和特征向量之间的对象中心对比损失迈进。具体来说,作者计算对象中心对比损失,定义如下:
其中是中唯一预测对象的总数。表示余弦相似度,是温度标量。为了强调具有高相似性的特征向量的影响,并将模型的注意力引导到它们身上,作者根据向量之间的相似性信息对损失进行加权。权重定义为,其中表示相似性矩阵,定义为。
虽然公式(4)基于EICue分配聚合了对象级特征,但作者注意到可以通过作者的光度增强图像巧妙地施加另一种鲁棒的一致性。也就是说,由于光度增强不应用结构变化,增强图像和在结构上是相同的,这使得作者可以做出以下重要假设:和中相同位置的向量应该具有相似的对象级语义。这一假设最终允许作者基于的创建新的掩码(图2,在绿色框中)。因此,作者将对比损失应用于增强图像,基于非增强图像的原型,以指导模型学习全局语义一致性。为了说明这一概念,作者的语义一致性对比损失定义为
其中表示对象的投影特征的第个特征向量。具体来说,作者可以将作者的对象中心对比损失公式化为,其中和是调整每个损失强度的超参数。由于损失函数是不对称的,作者还考虑了相反的情况,即。因此,作者优化的最终_对象中心对比损失_函数(ObjNCELoss)如下:
总目标
为了从一开始就增强训练过程的稳定性,作者还采用了对应蒸馏损失。总的来说,作者最小化以下目标:
其中和是超参数。这里,从零开始并迅速增加,表明在训练过程中的影响逐渐增强。
4. 实验
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。