MASKDINO参数配置详解

是小果果蛋儿啊

已于 2025-01-02 10:10:48 修改

阅读量1.3k

点赞数 16

分类专栏： CV任务文章标签： 1024程序员节

于 2024-10-24 22:05:28 首次发布

本文链接：https://blog.youkuaiyun.com/qq_43275608/article/details/143220821

版权

CV任务专栏收录该内容

4 篇文章

订阅专栏

基础配置

BASE: ../Base-COCO-InstanceSegmentation.yaml
指定基础配置文件，包含基本参数和结构。

模型结构

MODEL:
定义模型的各个组件和超参数。
- META_ARCHITECTURE: "MaskDINO"
  指定使用的模型架构，MaskDINO 是一种用于实例分割的模型。
- BACKBONE:
  模型的主干网络，负责提取特征。
  - NAME: "D2SwinTransformer"
    使用的主干网络类型，这里是 D2Swin Transformer。
  - SWIN:
    关于 Swin Transformer 的参数配置。
    - EMBED_DIM: 192
      嵌入维度大小。
    - DEPTHS: [ 2, 2, 18, 2 ]
      每一层的深度配置，表示不同阶段的层数。
    - NUM_HEADS: [ 6, 12, 24, 48 ]
      每层注意力头的数量。
    - WINDOW_SIZE: 12
      窗口大小，用于局部注意力计算。
    - APE: False
      是否使用位置编码。
    - DROP_PATH_RATE: 0.3
      随机丢弃路径的概率。
    - PATCH_NORM: True
      是否使用 Patch 归一化。
    - PRETRAIN_IMG_SIZE: 384
      预训练时使用的图像尺寸。
- WEIGHTS: "swin_large_patch4_window12_384_22k.pkl"
  指定预训练权重文件。
- PIXEL_MEAN:
  图像预处理时使用的均值。
  - [ 123.675, 116.280, 103.530 ]
- PIXEL_STD:
  图像预处理时使用的标准差。
  - [ 58.395, 57.120, 57.375 ]

语义分割头

SEM_SEG_HEAD:
定义语义分割头的配置。
- NAME: "MaskDINOHead"
  使用的头部名称。
- IGNORE_VALUE: 255
  被忽略的像素值。
- NUM_CLASSES: 80
  类别数量。
- LOSS_WEIGHT: 1.0
  损失权重。
- CONVS_DIM: 256
  卷积层的维度。
- MASK_DIM: 256
  掩码的维度。
- NORM: "GN"
  归一化方式，这里是 Group Normalization。
- PIXEL_DECODER_NAME: "MaskDINOEncoder"
  像素解码器的名称。
- DIM_FEEDFORWARD: 2048
  前馈网络的维度。
- NUM_FEATURE_LEVELS: 4
  特征层的数量。
- TOTAL_NUM_FEATURE_LEVELS: 5
  特征层的总数。
- IN_FEATURES: ["res2", "res3", "res4", "res5"]
  输入特征的来源。
- DEFORMABLE_TRANSFORMER_ENCODER_IN_FEATURES: ["res2", "res3", "res4", "res5"]
  变形网络的输入特征。
- COMMON_STRIDE: 4
  特征图的步幅。
- TRANSFORMER_ENC_LAYERS: 6
  变形编码器的层数。
- FEATURE_ORDER: "low2high"
  特征处理顺序。

MaskDINO配置

MaskDINO:
MaskDINO 特有的参数。
- TRANSFORMER_DECODER_NAME: "MaskDINODecoder"
  变形解码器的名称。
- DEEP_SUPERVISION: True
  是否启用深度监督。
- NO_OBJECT_WEIGHT: 0.1
  无目标权重。
- CLASS_WEIGHT: 4.0
  类别权重。
- MASK_WEIGHT: 5.0
  掩码权重。
- DICE_WEIGHT: 5.0
  DICE 损失权重。
- BOX_WEIGHT: 5.0
  边界框权重。
- GIOU_WEIGHT: 2.0
  GIOU 权重。
- HIDDEN_DIM: 256
  隐藏层维度。
- NUM_OBJECT_QUERIES: 300
  对象查询数量。
- NHEADS: 8
  注意力头的数量。
- DROPOUT: 0.0
  Dropout 概率。
- DIM_FEEDFORWARD: 2048
  前馈网络的维度。
- ENC_LAYERS: 0
  编码器的层数。
- PRE_NORM: False
  是否在前面进行归一化。
- ENFORCE_INPUT_PROJ: False
  是否强制输入投影。
- SIZE_DIVISIBILITY: 32
  尺寸可整除性。
- DEC_LAYERS: 9
  解码器的层数（9层加1层用于可学习查询的损失）。
- TRAIN_NUM_POINTS: 12544
  训练时的点数量。
- OVERSAMPLE_RATIO: 3.0
  过采样比率。
- IMPORTANCE_SAMPLE_RATIO: 0.75
  重要性采样比率。
- EVAL_FLAG: 1
  评估标志。
- INITIAL_PRED: True
  是否使用初始预测。
- TWO_STAGE: True
  是否使用两阶段。
- DN: "seg"
  去噪类型。
- DN_NUM: 100
  去噪数量。
- INITIALIZE_BOX_TYPE: 'no'
  边界框初始化类型。
- TEST:
  测试相关参数。
  - SEMANTIC_ON: False
    是否启用语义分割。
  - INSTANCE_ON: True
    是否启用实例分割。
  - PANOPTIC_ON: False
    是否启用全景分割。
  - OVERLAP_THRESHOLD: 0.8
    重叠阈值。
  - OBJECT_MASK_THRESHOLD: 0.25
    目标掩码阈值。

求解器

SOLVER:
定义训练过程的参数。
- AMP:
  混合精度训练的设置。
  - ENABLED: True
    是否启用混合精度。

测试设置

TEST:
测试相关参数。
- EVAL_PERIOD: 5000
  每5000个步骤进行一次评估。
- # EVAL_FLAG: 1
  （被注释掉的行）评估标志，可能表示在训练时是否启用评估。

Enable GingerCannot connect to Ginger Check your internet connection
or reload the browserDisable GingerRephraseRephrase with Ginger (Ctrl+Alt+E)13Log in to edit with GingerGinger is checking your text for mistakes...Disable Ginger in this text fieldDisable Ginger on this website×