【Bilinear Pooling】《A Novel DR Classfication Scheme based on Compact Bilinear Pooling CNN and GBDT》

本文介绍了一种基于紧凑双线性池化卷积神经网络和梯度提升决策树的糖尿病视网膜病变(糖网病)自动分级方法。该方法能够有效提取眼底图像中的局部特征,并通过GBDT提高分类性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这里写图片描述

Journal of Information Hiding and Multimedia Signal Processing(JIH-MSP) - 2018

Diabetic Retinopathy(DR) 糖网病——“糖尿病视网膜病变”的简称,糖尿病会引起视网膜血管失调。


目录


1 Background and Motivation

Diabetic retinopathy (DR) is one of the leading causes of blindness, but the classi cation of DR requires experienced ophthalmologist to distinguish the presence of various small features, which is time-consuming and difficult.

Therefore, automated DR classi cation is essential for medical treatment.

DR progresses through five stages:

  • normal 正常
  • mild non-proliferative DR (NPDR) 轻度非增殖 DR
  • moderate NPDR 中度非增殖 DR
  • severe NPDR 重度非增殖 DR
  • proliferative DR (PDR) 增殖期 DR

这里写图片描述

automated DR classi cation schemes

  • conventional image-analysis based schemes(low-level,在小数据集上,易overfeat,poor in actual scenes)
  • deep learning based schemes(ignore the local pairwise feature,用的时softmax classifier)

为了处理 deep learning based schemes 的 two problems,作者提出

  • a compact bilinear pooling CNN
  • GBDT 替代 softmax

2 Innovation

Compact Bilinear Pooling CNN and Gradient Boosted Decision Tree

  • 针对在糖网病分级中具有鉴别力的特征位于眼底图像的某个局部,特征粒度细的特点,将糖网病自动分级看做细粒分类问题,引入双线性池化算法获取眼底图像中重要局部位置信息。

  • 考虑到双线性流池化方法需要计算外积导致计算代价大,算法引入紧凑双线性池化方法,通过采用 Count Sketch projection 方法对双线性池化进行降维处理,减小计算代价

  • 考虑到CNN模型所采用的分类器为softmax,难以很好的表达复杂的局部位置信息特征,算法采用GBDT分类器替换 softmax分类器以提升自动分级算法的性能

3 Advantages

achieves a superior performance in terms of the Kappa score, F1-score and AUC

4 Methods

这里写图片描述

4.1 Compact Bilinear Pooling CNN

4.1.1 Compact Bilinear Pooling

stream A 和 stream B 计算出来的特征图大小都为 C×H×H,经过out product( XXT X ∗ X T ) 计算后,dimension 为 C*C,本算法中 C = 512, C2 C 2 达到了惊人的 26万之多,这是不能接受的。为了减少计算量,作者采用了 Count Sketch projection 方法,在不损失精度的同时将维度从 c2 c 2 降到了d,其中 d<<c2 d << c 2

这里写图片描述

4.1.2 Network Architecture

VGG 把 fc6 和fc7 去掉,换成 compact bilinear pooling 层+ Signed Square Root+L2 normalization

这里写图片描述

4.2 Gradient Boosted Decision Tree

用的 XGboost

5 Dataset and Data Preparation

5.1 Dataset

EyePACS

这里写图片描述

80% for training
10% for validation
10% for test

5.2 Data Preparation

5.2.1 Image preprocessing
  • resize
    images ranges from 2592×1944 to 4752×3168,作者为了减少计算量,都 resize 到 448×448

  • color enhancement

    这里写图片描述

G(x,y, ρ ρ ) represents the Gaussian lter with a standard deviation of ρ ρ
* denotes the convolution operator
α,β,ρ,γ α , β , ρ , γ designed empirically as 4, -4, 10, 128 respectively.

5.2.2 Data Augmentation
  • re-sampling
  • spatial translation rotation
  • crop

6 Experiments and Results

GTX TITAN X GPU
mini-batch of 64

6.1 Kappa score

这里写图片描述

proposed scheme 相比 Compact bilinear CNN,区别在于把 softmax 改成了 GBDT

6.2 F1-score

这里写图片描述

注意到 Mild NPDR效果普遍很差,因为该类细胞很小,resieze 后基本是 a small round dot,很多会被误认为时 Normal

6.3 ROC and AUC

这里写图片描述

### 回答1: 紧凑双线性池化是一种用于计算机视觉中图像特征提取的技术。它可以将两个特征向量进行双线性池化,从而得到一个紧凑的特征向量,这个向量可以用于图像分类、目标检测等任务。相比于传统的双线性池化方法,紧凑双线性池化可以大大减少特征向量的维度,从而提高计算效率。 ### 回答2: Compact Bilinear Pooling(紧凑双线性池化)是一种用于图像分类和视觉问答等计算机视觉任务的高效特征融合技术。它可以将两个特征向量通过双线性映射方式快速融合为一个固定长度的特征向量,从而充分保留了两个特征向量中的所有信息。 Compact Bilinear Pooling是由微软研究院的维克托·拉津斯基等人提出的。在实际应用中,它可以提高模型的分类性能,同时减少了模型的计算和存储开销。 Compact Bilinear Pooling主要包括两个步骤:特征映射和特征池化。在特征映射阶段,对于两个输入特征向量,分别采用随机映射的方式将它们映射为高维空间中的特征图。在此基础上,采用双线性池化的方式将这两个特征图相乘并压缩成一个固定长度的向量,即为紧凑双线性池化后的特征向量。具体而言,双线性池化可以通过在空间和通道维度上应用矩阵乘法的方式来实现。 相对于其他特征融合方法,Compact Bilinear Pooling具有以下优点:1)保留输入特征向量的全部信息;2)能够快速生成紧凑的特征向量,减少了计算和存储开销;3)还可以通过改变随机映射的方式来进一步提高模型性能。但是,Compact Bilinear Pooling也存在一些局限性,比如需要大量的计算资源和训练数据支持。 ### 回答3: Compact bilinear pooling 是一种计算视觉特征的技术,它的主要目的是将原始的图像特征矩阵转换成一种紧凑的、固定维度的表示形式,从而能够更好地提高特征的表达能力。 这种技术的核心思想是将两个视觉特征图像进行双线性插值计算,从而得到一个紧凑的、固定维度的特征表示。具体来说,只需要对两个特征进行外积运算,然后将结果压缩成一个特征向量即可。在计算中,为了避免高维向量的计算和存储困难,通常会使用低秩矩阵分解的方法。 compact bilinear pooling 技术有很多的优点。首先,它比传统的卷积神经网络更具有表达能力。通过使用这种技术,可以更好地保留原始图像特征之间的交互作用,从而能够更好地捕捉图像中的细节信息。其次,它具有更小的存储空间需求。通过将特征压缩成固定长度的向量,可以大大减少存储空间和计算成本。 使用 compact bilinear pooling 技术可以对图像进行更好的特征提取和分类,因此在图像识别、人脸识别等领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值