论文笔记之: Bilinear CNN Models for Fine-grained Visual Recognition

本文介绍了一种用于细粒度视觉识别的双线性CNN模型。该模型通过两个特征提取器生成图像描述符,利用外积操作捕捉局部特征间的交互作用,并采用池化方法获得最终图像描述。这一方法能够以平移不变方式建模pairwise特征交互,且能生成如Fishervector, VLAD等不同形式的图像描述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

Bilinear CNN Models for Fine-grained Visual Recognition

CVPR 2015

  

 

  本文提出了一种双线性模型( bilinear models),一种识别结构,该结构由两个特征提取器产生,两个输出是图像每一个位置的外积(outer product),然后进行 pool,得到最终的图像描述算子。这种结构可以对局部 pairwise feature interactions 以平移不变的方式进行建模。而且,可以产生不同的无序的文字描述,像 Fisher vector, VLAD and O2P。

  

  

  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

### 双线性模型的建模方法与实现 双线性模型是一种通过捕捉输入向量之间复杂的交互关系来进行建模的技术,在多个领域得到了广泛应用,例如知识图谱嵌入、图像识别以及多模态学习等。以下是关于双线性模型的具体建模方法及其实现方式。 #### 1. 数学基础 双线性模型的核心在于其评分函数的设计,通常可以表示为以下形式: \[ f(x, y; W) = x^\top W y \] 其中 \(x\) 和 \(y\) 是输入向量,\(W\) 是一个可训练的权重矩阵。这个公式描述了如何通过矩阵乘法来衡量两个向量之间的关联程度[^1]。 对于某些特定的应用场景,比如知识图谱中的链接预测任务,上述公式可能被扩展为更复杂的形式。例如,在 Latent Factor Model (LFM)[^1] 中,评分函数进一步加入了偏置项和其他正则化机制以提升性能。 #### 2. 应用实例分析 ##### (1)知识图谱中的 LFM 模型 在知识图谱中,LFM 使用双线性映射来捕获实体间的关系特性。具体而言,它将头实体 \(h\)、尾实体 \(t\) 和关系 \(r\) 转换到同一隐空间后,计算它们三者间的兼容分数: \[ score(h,r,t)=e_h^\top M_r e_t+b_{hr}+b_{rt} \] 这里 \(M_r\) 表示对应于不同关系类型的参数矩阵;\(e_h,e_t\) 则分别代表头尾节点的嵌入向量;最后两项则是额外增加的偏差因子用来调整最终得分。 ##### (2)细粒度视觉分类中的 B-CNN 架构 针对计算机视觉里的细粒度物体辨识问题,《Bilinear CNN Models for Fine-Grained Visual Recognition》提出了一种新颖的卷积神经网络结构——双线性卷积神经网路(BCNN),该框架能够有效地融合局部区域内的成对特征信息从而增强区分能力[^3]。 整个流程大致分为以下几个部分完成: - 提取两张图片各自的空间金字塔最大池化的激活响应; - 对所得特征做外积运算得到联合表征; - 将高维张量展平并通过L2标准化处理降低维度并保持数值稳定; - 输入全连接层进行类别判定。 ```python import torch from torch import nn class BCNN(nn.Module): def __init__(self, num_classes=200): super(BCNN, self).__init__() # 定义VGG骨干提取器... def forward(self, x1, x2): feat1 = self.extractor(x1).view(-1, D) feat2 = self.extractor(x2).view(-1, D) bilinear_map = torch.bmm(feat1.unsqueeze(2), feat2.unsqueeze(1)).view(batch_size,-1) normed_bimap = F.normalize(bilinear_map,p=2,dim=-1) logits = self.fc(normed_bimap) return logits ``` ##### (3)跨模态注意力机制下的 BAN 设计 《Bilinear Attention Networks》一文中介绍了一套全新的基于双线性的注意力建模方案[BAN][^2] 。不同于传统单侧关注策略,此技术允许同时评估来自两种异质数据源的信息流强度,并据此动态分配资源优先级。特别值得注意的是,为了缓解高昂的时间开销压力,研究团队采用了近似分解技巧简化原始表达式,使得整体算法具备更好的实际操作可行性。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值