TopFormer：面向移动设备的令牌金字塔Transformer语义分割-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00441/article/details/142839925

TopFormer：面向移动设备的令牌金字塔Transformer语义分割

TopFormer 项目地址: https://gitcode.com/gh_mirrors/to/TopFormer

1. 项目介绍

TopFormer 是一款专为移动设备设计的语义分割架构。在当前计算机视觉领域，尽管视觉变换器（Vision Transformers, ViTs）已取得显著成功，但其高昂的计算成本使其难以在资源受限的环境如手机上高效执行像素级密集预测任务。本项目提出了一种名为“Token Pyramid Transformer”的轻量化解决方案，它通过集成来自不同尺度的Tokens来产生具有尺度感知的语义特征，进而增强表示能力。实验结果显示，TopFormer在多个语义分割数据集上显著优于基于CNN和ViT的网络，并在精度与延迟之间取得了良好平衡。测试环境基于单个Qualcomm Snapdragon 865处理器，输入尺寸为512x512x3。

2. 项目快速启动

要迅速开始使用TopFormer，确保你的系统已安装PyTorch 1.5+ 和 mmcv-full 1.3.14。接下来，遵循以下步骤：

# 克隆项目仓库
git clone https://github.com/hustvl/TopFormer.git
cd TopFormer

# 根据需求选择配置文件
# 例如，使用小规模模型进行训练
CONFIG_FILE="local_configs/topformer/TopFormer-T_512x512_2x8_160k.py"
WORK_DIR="./work_dirs/topformer_t_example"

# 训练模型（假设你有多个GPU）
sh tools/dist_train.sh $CONFIG_FILE 2 --work-dir $WORK_DIR

# 若仅需评估，指定模型路径
EVAL_MODEL_PATH="path/to/your/model.pth"
sh tools/dist_test.sh $CONFIG_FILE $EVAL_MODEL_PATH 1