ImageNet 18分钟训练项目技术文档

ImageNet 18分钟训练项目技术文档

1. 安装指南

环境要求

  • Python 3.6 或更高版本

安装步骤

  1. 设置AWS环境变量

    • 设置 AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEYAWS_DEFAULT_REGION
    • 参考 AWS配置指南 进行配置。
  2. 安装依赖包

    pip install -r requirements.txt
    
  3. 配置AWS区域

    ncluster spot_prices p3  # 检查p3实例的竞价价格
    export NCLUSTER_ZONE=us-east-1  # 设置一个p3实例价格较低的区域
    

2. 项目使用说明

训练ImageNet

  1. 配置高性能磁盘

    python tools/replicate_imagenet.py --replicas=4
    
  2. 启动训练

    python train.py --machines=4
    
  3. 删除高性能磁盘

    python tools/replicate_imagenet.py --replicas=4 --delete
    

使用不同数量的机器

  • 使用1台机器:
    python train.py --machines=1
    
  • 使用2台机器:
    python train.py --machines=2
    
  • 使用4台机器:
    python train.py --machines=4
    
  • 使用8台机器:
    python train.py --machines=8
    
  • 使用16台机器:
    python train.py --machines=16
    

使用竞价实例

  • 添加 --spot 参数:
    python train.py --spot
    

3. 项目API使用文档

训练进度查看

  • TensorBoard

    1. 启动TensorBoard:
      python tools/launch_tensorboard.py
      
    2. 在TensorBoard中查看损失图。
  • 控制台

    1. 连接到实例:
      ncluster connect 0.monday-quad
      
    2. 查看训练日志。
  • Weights and Biases

    1. 在Weights and Biases页面中查看运行记录。

4. 项目安装方式

本地运行

  • 如果需要在本地运行,请自行下载ImageNet数据集:
    wget https://s3.amazonaws.com/yaroslavvb2/data/imagenet18.tar
    

其他注意事项

  • 确保AWS账户有足够的权限创建EFS、VPC、子网、密钥对和放置组等资源。
  • 高性能磁盘每小时约1美元,使用后请及时删除。

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值