MASKDINO参数配置详解

基础配置

  • BASE: ../Base-COCO-InstanceSegmentation.yaml
    指定基础配置文件,包含基本参数和结构。

模型结构

  • MODEL:
    定义模型的各个组件和超参数。

    • META_ARCHITECTURE: "MaskDINO"
      指定使用的模型架构,MaskDINO 是一种用于实例分割的模型。

    • BACKBONE:
      模型的主干网络,负责提取特征。

      • NAME: "D2SwinTransformer"
        使用的主干网络类型,这里是 D2Swin Transformer。

      • SWIN:
        关于 Swin Transformer 的参数配置。

        • EMBED_DIM: 192
          嵌入维度大小。

        • DEPTHS: [ 2, 2, 18, 2 ]
          每一层的深度配置,表示不同阶段的层数。

        • NUM_HEADS: [ 6, 12, 24, 48 ]
          每层注意力头的数量。

        • WINDOW_SIZE: 12
          窗口大小,用于局部注意力计算。

        • APE: False
          是否使用位置编码。

        • DROP_PATH_RATE: 0.3
          随机丢弃路径的概率。

        • PATCH_NORM: True
          是否使用 Patch 归一化。

        • PRETRAIN_IMG_SIZE: 384
          预训练时使用的图像尺寸。

    • WEIGHTS: "swin_large_patch4_window12_384_22k.pkl"
      指定预训练权重文件。

    • PIXEL_MEAN:
      图像预处理时使用的均值。

      • [ 123.675, 116.280, 103.530 ]
    • PIXEL_STD:
      图像预处理时使用的标准差。

      • [ 58.395, 57.120, 57.375 ]

语义分割头

  • SEM_SEG_HEAD:
    定义语义分割头的配置。

    • NAME: "MaskDINOHead"
      使用的头部名称。

    • IGNORE_VALUE: 255
      被忽略的像素值。

    • NUM_CLASSES: 80
      类别数量。

    • LOSS_WEIGHT: 1.0
      损失权重。

    • CONVS_DIM: 256
      卷积层的维度。

    • MASK_DIM: 256
      掩码的维度。

    • NORM: "GN"
      归一化方式,这里是 Group Normalization。

    • PIXEL_DECODER_NAME: "MaskDINOEncoder"
      像素解码器的名称。

    • DIM_FEEDFORWARD: 2048
      前馈网络的维度。

    • NUM_FEATURE_LEVELS: 4
      特征层的数量。

    • TOTAL_NUM_FEATURE_LEVELS: 5
      特征层的总数。

    • IN_FEATURES: ["res2", "res3", "res4", "res5"]
      输入特征的来源。

    • DEFORMABLE_TRANSFORMER_ENCODER_IN_FEATURES: ["res2", "res3", "res4", "res5"]
      变形网络的输入特征。

    • COMMON_STRIDE: 4
      特征图的步幅。

    • TRANSFORMER_ENC_LAYERS: 6
      变形编码器的层数。

    • FEATURE_ORDER: "low2high"
      特征处理顺序。

MaskDINO配置

  • MaskDINO:
    MaskDINO 特有的参数。

    • TRANSFORMER_DECODER_NAME: "MaskDINODecoder"
      变形解码器的名称。

    • DEEP_SUPERVISION: True
      是否启用深度监督。

    • NO_OBJECT_WEIGHT: 0.1
      无目标权重。

    • CLASS_WEIGHT: 4.0
      类别权重。

    • MASK_WEIGHT: 5.0
      掩码权重。

    • DICE_WEIGHT: 5.0
      DICE 损失权重。

    • BOX_WEIGHT: 5.0
      边界框权重。

    • GIOU_WEIGHT: 2.0
      GIOU 权重。

    • HIDDEN_DIM: 256
      隐藏层维度。

    • NUM_OBJECT_QUERIES: 300
      对象查询数量。

    • NHEADS: 8
      注意力头的数量。

    • DROPOUT: 0.0
      Dropout 概率。

    • DIM_FEEDFORWARD: 2048
      前馈网络的维度。

    • ENC_LAYERS: 0
      编码器的层数。

    • PRE_NORM: False
      是否在前面进行归一化。

    • ENFORCE_INPUT_PROJ: False
      是否强制输入投影。

    • SIZE_DIVISIBILITY: 32
      尺寸可整除性。

    • DEC_LAYERS: 9
      解码器的层数(9层加1层用于可学习查询的损失)。

    • TRAIN_NUM_POINTS: 12544
      训练时的点数量。

    • OVERSAMPLE_RATIO: 3.0
      过采样比率。

    • IMPORTANCE_SAMPLE_RATIO: 0.75
      重要性采样比率。

    • EVAL_FLAG: 1
      评估标志。

    • INITIAL_PRED: True
      是否使用初始预测。

    • TWO_STAGE: True
      是否使用两阶段。

    • DN: "seg"
      去噪类型。

    • DN_NUM: 100
      去噪数量。

    • INITIALIZE_BOX_TYPE: 'no'
      边界框初始化类型。

    • TEST:
      测试相关参数。

      • SEMANTIC_ON: False
        是否启用语义分割。

      • INSTANCE_ON: True
        是否启用实例分割。

      • PANOPTIC_ON: False
        是否启用全景分割。

      • OVERLAP_THRESHOLD: 0.8
        重叠阈值。

      • OBJECT_MASK_THRESHOLD: 0.25
        目标掩码阈值。

求解器

  • SOLVER:
    定义训练过程的参数。

    • AMP:
      混合精度训练的设置。

      • ENABLED: True
        是否启用混合精度。

测试设置

  • TEST:
    测试相关参数。

    • EVAL_PERIOD: 5000
      每5000个步骤进行一次评估。

    • # EVAL_FLAG: 1
      (被注释掉的行)评估标志,可能表示在训练时是否启用评估。

Enable GingerCannot connect to Ginger Check your internet connection
or reload the browserDisable GingerRephraseRephrase with Ginger (Ctrl+Alt+E)13Log in to edit with GingerGinger is checking your text for mistakes...Disable Ginger in this text fieldDisable Ginger on this website×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值