基础配置
- BASE: ../Base-COCO-InstanceSegmentation.yaml
指定基础配置文件,包含基本参数和结构。
模型结构
-
MODEL:
定义模型的各个组件和超参数。-
META_ARCHITECTURE: "MaskDINO"
指定使用的模型架构,MaskDINO 是一种用于实例分割的模型。 -
BACKBONE:
模型的主干网络,负责提取特征。-
NAME: "D2SwinTransformer"
使用的主干网络类型,这里是 D2Swin Transformer。 -
SWIN:
关于 Swin Transformer 的参数配置。-
EMBED_DIM: 192
嵌入维度大小。 -
DEPTHS: [ 2, 2, 18, 2 ]
每一层的深度配置,表示不同阶段的层数。 -
NUM_HEADS: [ 6, 12, 24, 48 ]
每层注意力头的数量。 -
WINDOW_SIZE: 12
窗口大小,用于局部注意力计算。 -
APE: False
是否使用位置编码。 -
DROP_PATH_RATE: 0.3
随机丢弃路径的概率。 -
PATCH_NORM: True
是否使用 Patch 归一化。 -
PRETRAIN_IMG_SIZE: 384
预训练时使用的图像尺寸。
-
-
-
WEIGHTS: "swin_large_patch4_window12_384_22k.pkl"
指定预训练权重文件。 -
PIXEL_MEAN:
图像预处理时使用的均值。- [ 123.675, 116.280, 103.530 ]
-
PIXEL_STD:
图像预处理时使用的标准差。- [ 58.395, 57.120, 57.375 ]
-
语义分割头
-
SEM_SEG_HEAD:
定义语义分割头的配置。-
NAME: "MaskDINOHead"
使用的头部名称。 -
IGNORE_VALUE: 255
被忽略的像素值。 -
NUM_CLASSES: 80
类别数量。 -
LOSS_WEIGHT: 1.0
损失权重。 -
CONVS_DIM: 256
卷积层的维度。 -
MASK_DIM: 256
掩码的维度。 -
NORM: "GN"
归一化方式,这里是 Group Normalization。 -
PIXEL_DECODER_NAME: "MaskDINOEncoder"
像素解码器的名称。 -
DIM_FEEDFORWARD: 2048
前馈网络的维度。 -
NUM_FEATURE_LEVELS: 4
特征层的数量。 -
TOTAL_NUM_FEATURE_LEVELS: 5
特征层的总数。 -
IN_FEATURES: ["res2", "res3", "res4", "res5"]
输入特征的来源。 -
DEFORMABLE_TRANSFORMER_ENCODER_IN_FEATURES: ["res2", "res3", "res4", "res5"]
变形网络的输入特征。 -
COMMON_STRIDE: 4
特征图的步幅。 -
TRANSFORMER_ENC_LAYERS: 6
变形编码器的层数。 -
FEATURE_ORDER: "low2high"
特征处理顺序。
-
MaskDINO配置
-
MaskDINO:
MaskDINO 特有的参数。-
TRANSFORMER_DECODER_NAME: "MaskDINODecoder"
变形解码器的名称。 -
DEEP_SUPERVISION: True
是否启用深度监督。 -
NO_OBJECT_WEIGHT: 0.1
无目标权重。 -
CLASS_WEIGHT: 4.0
类别权重。 -
MASK_WEIGHT: 5.0
掩码权重。 -
DICE_WEIGHT: 5.0
DICE 损失权重。 -
BOX_WEIGHT: 5.0
边界框权重。 -
GIOU_WEIGHT: 2.0
GIOU 权重。 -
HIDDEN_DIM: 256
隐藏层维度。 -
NUM_OBJECT_QUERIES: 300
对象查询数量。 -
NHEADS: 8
注意力头的数量。 -
DROPOUT: 0.0
Dropout 概率。 -
DIM_FEEDFORWARD: 2048
前馈网络的维度。 -
ENC_LAYERS: 0
编码器的层数。 -
PRE_NORM: False
是否在前面进行归一化。 -
ENFORCE_INPUT_PROJ: False
是否强制输入投影。 -
SIZE_DIVISIBILITY: 32
尺寸可整除性。 -
DEC_LAYERS: 9
解码器的层数(9层加1层用于可学习查询的损失)。 -
TRAIN_NUM_POINTS: 12544
训练时的点数量。 -
OVERSAMPLE_RATIO: 3.0
过采样比率。 -
IMPORTANCE_SAMPLE_RATIO: 0.75
重要性采样比率。 -
EVAL_FLAG: 1
评估标志。 -
INITIAL_PRED: True
是否使用初始预测。 -
TWO_STAGE: True
是否使用两阶段。 -
DN: "seg"
去噪类型。 -
DN_NUM: 100
去噪数量。 -
INITIALIZE_BOX_TYPE: 'no'
边界框初始化类型。 -
TEST:
测试相关参数。-
SEMANTIC_ON: False
是否启用语义分割。 -
INSTANCE_ON: True
是否启用实例分割。 -
PANOPTIC_ON: False
是否启用全景分割。 -
OVERLAP_THRESHOLD: 0.8
重叠阈值。 -
OBJECT_MASK_THRESHOLD: 0.25
目标掩码阈值。
-
-
求解器
-
SOLVER:
定义训练过程的参数。-
AMP:
混合精度训练的设置。- ENABLED: True
是否启用混合精度。
- ENABLED: True
-
测试设置
-
TEST:
测试相关参数。-
EVAL_PERIOD: 5000
每5000个步骤进行一次评估。 -
# EVAL_FLAG: 1
(被注释掉的行)评估标志,可能表示在训练时是否启用评估。
-
Enable GingerCannot connect to Ginger Check your internet connection
or reload the browserDisable GingerRephraseRephrase with Ginger (Ctrl+Alt+E)13Log in to edit with GingerGinger is checking your text for mistakes...Disable Ginger in this text fieldDisable Ginger on this website×