ImageNet 18分钟训练项目技术文档
1. 安装指南
环境要求
- Python 3.6 或更高版本
安装步骤
-
设置AWS环境变量:
- 设置
AWS_ACCESS_KEY_ID、AWS_SECRET_ACCESS_KEY和AWS_DEFAULT_REGION。 - 参考 AWS配置指南 进行配置。
- 设置
-
安装依赖包:
pip install -r requirements.txt -
配置AWS区域:
ncluster spot_prices p3 # 检查p3实例的竞价价格 export NCLUSTER_ZONE=us-east-1 # 设置一个p3实例价格较低的区域
2. 项目使用说明
训练ImageNet
-
配置高性能磁盘:
python tools/replicate_imagenet.py --replicas=4 -
启动训练:
python train.py --machines=4 -
删除高性能磁盘:
python tools/replicate_imagenet.py --replicas=4 --delete
使用不同数量的机器
- 使用1台机器:
python train.py --machines=1 - 使用2台机器:
python train.py --machines=2 - 使用4台机器:
python train.py --machines=4 - 使用8台机器:
python train.py --machines=8 - 使用16台机器:
python train.py --machines=16
使用竞价实例
- 添加
--spot参数:python train.py --spot
3. 项目API使用文档
训练进度查看
-
TensorBoard:
- 启动TensorBoard:
python tools/launch_tensorboard.py - 在TensorBoard中查看损失图。
- 启动TensorBoard:
-
控制台:
- 连接到实例:
ncluster connect 0.monday-quad - 查看训练日志。
- 连接到实例:
-
Weights and Biases:
- 在Weights and Biases页面中查看运行记录。
4. 项目安装方式
本地运行
- 如果需要在本地运行,请自行下载ImageNet数据集:
wget https://s3.amazonaws.com/yaroslavvb2/data/imagenet18.tar
其他注意事项
- 确保AWS账户有足够的权限创建EFS、VPC、子网、密钥对和放置组等资源。
- 高性能磁盘每小时约1美元,使用后请及时删除。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



