Efficient Mirror Detection via Multi-level Heterogeneous Learning 【论文阅读笔记】

HetNet是一种针对镜像检测的新型模型,通过低层次的强度对比(MIC模块)和高层次的反射语义逻辑(RSL模块)实现高效检测。现有的方法在效率和性能之间存在权衡,而HetNet通过异构模块设计,兼顾了两者,尤其适合实时应用。实验表明,HetNet在多种复杂场景中表现出色,验证了其有效性和鲁棒性。

论文地址:https://arxiv.org/abs/2211.15644v1
源码地址:https://github.com/Catherine-R-He/HetNet


这篇论文提出的网络模型缩写为:HetNet,全称为多层次异构网络(Multi-level Heterogeneous Network)

是一个高效的检测镜子的模型

目前的镜像检测方法更注重性能而不是效率,限制了实时应用(如无人机上的使用)

效率的不足是由于采用同质模块的设计,忽略了不同层次特征之间的差异

相比之下,HetNet通过low level的检测能力(例如,强度对比)来检测潜在的镜像区域,然后在与high level的检测能力(例如,上下文的不连续)相结合来最终确定预测

为了执行准确而高效的镜像检测,HetNet遵循一种有效的架构,在不同的阶段获取特定的信息来检测镜像

HetNet有两个重要的模块设计:

  1. 基于多方向强度的对比模块(MIC),在低层级预测潜在的镜子区域
  2. 反射语义逻辑模块(RSL),在高层级来分析场景中的语义逻辑

镜子的反射可能会导致深度预测出错以及对现实和虚拟性的混淆
这在计算机视觉任务中,如在无人机和机器人导航等情况下导致严重的安全问题

此外,由于计算资源有限,应用程序场景可能在很大程度上依赖于模型的效率,而高效的镜子检测对实时计算机视觉应用程序则至关重要

在以前的研究:

  1. MirrorNet:contextual contrasted features
    1. 它们通过多尺度的上下文对比特征来定位镜像
    2. 如果镜像内容和非镜像内容相似,此方法会有限制
  2. PMD:content similarity
    1. 重点研究镜像和非镜像区域特征的关系
  3. SANet:semantic associations

这些方法在每个阶段都对大空间分辨率的低级特征和小空间分辨率的高级特征应用相同的模块,因此存在巨大的计算成本

此外,它们还严重依赖于后处理算法
如CRF: 这严重限制了这些现有方法对现实世界的场景的使用

CRF:Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials 2011

salient object detection (SOD) 显著目标检测

  1. LDF
  2. CPDNet

这些需要很小的FLOPs,但是性能不够好

请添加图片描述
上图是与其他的镜子检测模型的模型结构对比

  1. 低层级特征包含了颜色、形状和纹理的表示,但学习这些特征需要更高的计算成本,因为它们比高级特征具有更大的空间分辨率
  2. 高层级特征涉及更多的语义信息,由于高级特征只包含粗糙的空间信息,因此模型更难以直接提取精确的镜像边界

低水平和高水平的理解都有助于镜像检测
由于低级特征和高级特征之间的表示差距,在模型设计中,这两种特征都不宜采用相同的模块

HetNet充分利用主干网络来更好地学习底层特征,而不需要花费巨大的计算成本
利用对低级和高级特征的解纠缠学习,模型有效地、高效地利用了低级和高级特征


Related Works

Salient Object Detection
它能检测到图像中最突出的物体
早期的方法主要是基于低层次的特征,如color, contrast,spectral residual

Shadow Detection
它可以识别或删除图像中的阴影区域


Methodology

HetNet是基于两个观察结果
人类很容易被吸引到具有显著的低级特征(如强度对比)的区域,然后关注高级信息(如内容相似性、上下文对比)来检查物体细节以检测镜像。
这些观察结果促使我们在浅层阶段学习低级特征,并在具有异构模块的深层阶段提取高级特征

请添加图片描述
上图是HetNet的结构示意图

从骨干网络中获得多尺度图像特征后
前三个阶段使用了基于多方向强度的对比(MIC)模块,后三个阶段使用了反射语义逻辑(RSL)模块和全局提取器(GE),全局提取器(GE)根据金字塔池化模块提取多尺度图像特征

基于学习强度的低水平理解,然后将f1和f2、f2和f3分别融合到f21、f22中
为了整合反射语义理解,我们首先将f6与f5融合,然后与f4融合,生成f23
最后,将f23与f22聚合到f31后,输出的特征图是f31和f21的融合

融合策略是乘法和两个3×3卷积层,其中低级特征流和高级特征流融合成交叉聚合策略

(图中的融合操作(A)可能是来自于 Coordinate Attention for Efficient Mobile Network Design, CVPR21,由代码注释中)

The MIC Module

multi-orientation intensity-based contrasted 多方向强度对比

只学习语境信息是不够的,特别是在语境信息有限或复杂的情况下
因此,利用一个额外的强提示来促进镜像检测是必要的

大多数人先看整个场景,然后注意场景中的各个元素
此外,整体并不等于单个元素的总和
相反,它考虑了这些元素的关联程度(例如,形状、位置、大小、颜色)

基于此,我们认为从不同的方向观察同一场景可以获得不同的信息

我们使用ICFEs(基于强度的对比特征提取器)学习特征
ICFE的全程为Intensity-based Contrasted Feature Extractor

增强的对比信息是通过结合来自两个单一方向的信息来获得的

考虑到镜像和非镜像区域之间的低层级对比,我们首先设计了一个MIC模块,聚焦于双方向的低层级对比来定位可能的镜像区域

此外,为了降低计算成本,icfe将输入特征作为两个方向的两个平行一维特征分别处理

一个MIC模块由两个基于强度的对比特征提取器(ICFE)模块组成

我们首先提取了一个方向的对比度特征
逆时针旋转90度后,在另一个方向提取对比度特征

f 1 l o w = I C F E ( f in  low  ) , f 2 low  = I C F E ( Rot ⁡ ( f in  low  , 1 ) ) f 3 l o w = f 1 l o w ⊙ Rot ⁡ ( f 2 l o w , − 1 ) f out  l o w = B C o n v 1 × 1 ( B C o n v 3 × 3 ( f 3 l o w ) ) \begin{aligned} & f_1^{l o w}=\mathbf{I C F E}\left(f_{\text {in }}^{\text {low }}\right), \quad f_2^{\text {low }}=\mathbf{I C F E}\left(\operatorname{Rot}\left(f_{\text {in }}^{\text {low }}, 1\right)\right) \\ & f_3^{l o w}=f_1^{l o w} \odot \operatorname{Rot}\left(f_2^{l o w},-1\right) \\ & f_{\text {out }}^{l o w}=\mathbf{B C o n v}_{1 \times 1}\left(\mathbf{B C o n v}_{3 \times 3}\left(f_3^{l o w}\right)\right) \end{aligned} f1low=ICFE(fin low ),f2low =ICFE(Rot(fin low ,1))f3low=f1lowRot(f2low,1)fout low=BConv1×1(BConv3×3(f3

在时序异构图(Temporal Heterogeneous Graphs)的研究中,LLM(Large Language Model)增强的级联多级学习方法是一个相对较新的研究方向。这类方法通常结合图神经网络(GNN)与大规模语言模型,旨在更好地捕捉图结构数据中的复杂语义和动态演化模式。以下是一些相关的研究方向及论文信息: ### 时序异构图与LLM增强学习方法的研究方向 1. **异构图表示学习与语言模型结合** 异构图(Heterogeneous Graph)包含多种类型的节点和边,传统方法如HAN(Heterogeneous Attention Network)或R-GCN(Relational Graph Convolutional Network)在处理静态异构图方面取得了进展。然而,在引入时间维度后,如何建模动态变化成为挑战。近期一些研究尝试将LLM作为语义增强模块,用于生成节点或边的语义丰富表示,从而提升图学习的效果[^1]。 2. **级联多级学习框架(Cascaded Multi-Level Learning)** 级联多级学习通常涉及多个阶段的信息传递与特征提取。例如,第一级可以是基于GNN的局部邻域聚合,第二级则是基于Transformer或LSTM的时间演化建模,第三级则引入LLM进行高层次语义推理。这种结构可以有效分层处理图的结构信息、时间演化和语义信息,从而提升模型的整体性能[^2]。 3. **基于LLM的时序图建模** LLM(如BERT、GPT系列)在自然语言处理中展现了强大的语义理解能力。在时序异构图中,LLM可用于建模节点描述、边的语义标签或时间事件序列。例如,可以将节点的文本属性输入LLM以生成高质量的语义嵌入,并将其作为图神经网络的输入特征。这种方法在图分类、链接预测和节点分类任务中展现出潜力[^3]。 ### 相关研究论文 - **"Temporal Heterogeneous Graph Neural Networks with Language Model Enhancement"** 该论文提出了一种结合时序图神经网络与预训练语言模型的方法,用于处理具有文本属性的时序异构图。文中采用BERT对节点的文本信息进行编码,并将其融合到GNN的消息传递过程中,以提升模型对语义信息的理解能力[^4]。 - **"Cascaded Learning for Temporal Heterogeneous Graphs: A Language Model Perspective"** 该研究提出了一种级联式多级学习框架,其中每一级分别处理图结构、时间演化和语义信息。LLM被用于第三级的语义推理,以辅助模型进行复杂关系推理和事件预测。实验表明该方法在多个时序图任务上优于传统方法[^5]。 - **"Language Models as Knowledge Enhancers in Heterogeneous Temporal Graphs"** 该论文探索了如何将LLM作为知识增强模块,注入到异构图的学习过程中。LLM用于从外部知识库中提取相关信息,并将其融合到图结构中,从而提升模型在知识密集型任务中的表现[^6]。 ### 示例代码:LLM增强的图表示学习(伪代码) ```python import torch from transformers import BertModel, BertTokenizer from torch_geometric.nn import GCNConv class LLMEnhancedGraphModel(torch.nn.Module): def __init__(self, hidden_dim): super(LLMEnhancedGraphModel, self).__init__() self.bert = BertModel.from_pretrained('bert-base-uncased') self.tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') self.gcn = GCNConv(hidden_dim, hidden_dim) def forward(self, data, texts): # 使用BERT编码文本属性 inputs = self.tokenizer(texts, padding=True, truncation=True, return_tensors='pt') with torch.no_grad(): bert_output = self.bert(**inputs).last_hidden_state.mean(dim=1) # 将BERT输出作为节点特征输入GCN x = bert_output[data.node_indices] edge_index = data.edge_index x = self.gcn(x, edge_index) return x ``` 上述代码展示了如何将BERT嵌入与图卷积网络结合,以增强图节点的语义表示。 ---
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值