Google-Landmark-Recognition-2020-3rd-Place-Solution：全球地标识别竞赛的顶尖解决方案

计姗群

于 2025-04-07 09:17:25 发布

阅读量519

点赞数 17

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00521/article/details/147035182

Google-Landmark-Recognition-2020-3rd-Place-Solution：全球地标识别竞赛的顶尖解决方案

Google-Landmark-Recognition-2020-3rd-Place-Solution 项目地址: https://gitcode.com/gh_mirrors/go/Google-Landmark-Recognition-2020-3rd-Place-Solution

在人工智能技术飞速发展的今天，图像识别领域取得了显著的进展。Google Landmark Recognition 2020竞赛吸引了全球众多研究者和开发者的关注，旨在识别和分类世界各地的地标。今天，我们将为您介绍本次竞赛中获得第三名的解决方案——Google-Landmark-Recognition-2020-3rd-Place-Solution。

项目介绍

Google-Landmark-Recognition-2020-3rd-Place-Solution是基于深度学习的图像识别模型，旨在识别和分类Google Landmarks数据集中的地标图片。该解决方案在2020年Google Landmark Recognition竞赛中获得了第三名，证明了其强大的识别能力和高效的训练方法。

项目技术分析

硬件配置

项目使用了以下硬件配置来创建原始解决方案：

Ubuntu 18.04.3 LTS操作系统
Intel(R) Xeon(R) CPU E5-2698 v4 @ 2.20GHz (80 cores)处理器
8 x NVIDIA Tesla V100 32G GPU

软件依赖

项目依赖于以下Python包：

Python 3.6.10
CUDA Version 11.0.194
nvidia Driver Version: 418.116.00

这些软件和硬件配置为模型的训练和推断提供了强大的支持。

项目及技术应用场景

数据准备

数据准备是图像识别项目成功的关键步骤。以下是该项目的数据准备流程：

下载Google Landmarks Dataset v2到本地./data目录。
下载标签CSV文件并放置在与train文件夹相同的目录。
下载预训练的ReXNet V1-2.0x模型权重。
运行preprocess.py脚本以创建训练和验证数据集。

训练过程

项目提供了多种模型的训练命令，包括B7、B6、B5、B4、B3以及ResNeSt-101和ReXNet 2.0。每个模型的训练过程都分为多个步骤，包括不同分辨率的训练、不同批次大小的调整以及预训练权重的加载。以下是一个示例训练命令：

python -u -m torch.distributed.launch --nproc_per_node=6 train.py --kernel-type b7ns_DDP_final_256_300w_f0_10ep --train-step 0 --data-dir ./data --image-size 256 --batch-size 42 --enet-type tf_efficientnet_b7_ns --n-epochs 10 --CUDA_VISIBLE_DEVICES 0,1,2,3,4,5 --fold 0

这些训练命令充分利用了分布式训练的优势，提高了训练效率。