《动手学深度学习》项目：在AWS EC2上搭建深度学习环境指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00966/article/details/148323573

《动手学深度学习》项目：在AWS EC2上搭建深度学习环境指南

d2l-zh 《动手学深度学习》：面向中文读者、能运行、可讨论。中英文版被70多个国家的500多所大学用于教学。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-zh

引言

对于深度学习从业者和学习者来说，拥有一个强大的GPU计算环境至关重要。然而，购买和维护物理GPU服务器成本高昂且不灵活。本文将详细介绍如何利用AWS EC2云服务快速搭建一个支持GPU的深度学习环境，特别适合运行《动手学深度学习》项目中的代码示例。

AWS EC2基础概念

在开始之前，我们需要了解几个关键概念：

EC2实例：AWS提供的虚拟服务器，可以按需配置不同计算能力
AMI(Amazon Machine Image)：预配置的操作系统和软件模板
实例类型：决定CPU、内存、GPU等硬件配置
密钥对：用于安全SSH连接的认证方式

创建EC2实例的详细步骤

1. 选择数据中心位置

选择靠近你地理位置的数据中心可以显著降低网络延迟。例如：

北美用户可选择"俄勒冈"(us-west-2)
亚洲用户可选择"东京"(ap-northeast-1)或"首尔"(ap-northeast-2)

2. 检查并申请实例配额

AWS对新账户有默认的实例数量限制。如需使用GPU实例，可能需要申请提高配额：

进入EC2控制台的"Limits"页面
查找目标实例类型(如p2.xlarge)
点击"Request limit increase"提交申请
通常1个工作日内会得到回复

3. 选择适合深度学习的实例

AWS提供多种GPU实例类型，主要区别在于GPU型号和数量：

| 实例系列 | GPU架构 | 适用场景 | |---------|--------|---------| | p2 | Kepler K80 | 入门级，适合预算有限的项目 | | g3 | Maxwell M60 | 性价比平衡的选择 | | p3 | Volta V100 | 高性能计算，支持FP16 | | g4 | Turing T4 | 推理优化，支持INT8 |

对于学习目的，建议从p2.xlarge(1个K80 GPU)开始。

4. 配置存储空间

深度学习环境需要较大的存储空间：

基础系统+CUDA：约10GB
数据集：视具体项目而定
建议至少分配64GB空间

5. 安全设置

务必妥善保管生成的密钥对(.pem文件)，这是连接实例的唯一凭证。建议：

将密钥文件存储在安全位置
设置文件权限为400：chmod 400 key.pem
不要将密钥文件分享给他人

环境配置指南

安装CUDA工具包

CUDA是NVIDIA GPU的计算平台，深度学习框架依赖它来加速计算。安装步骤：

更新系统并安装基础工具：

sudo apt-get update && sudo apt-get install -y build-essential git libgfortran3

添加NVIDIA官方仓库并安装CUDA 10.1：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-ubuntu1804.pin
sudo mv cuda-ubuntu1804.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda-repo-ubuntu1804-10-1-local-10.1.243-418.87.00_1.0-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu1804-10-1-local-10.1.243-418.87.00_1.0-1_amd64.deb
sudo apt-key add /var/cuda-repo-10-1-local-10.1.243-418.87.00/7fa2af80.pub
sudo apt-get update
sudo apt-get -y install cuda

验证安装：

nvidia-smi

此命令应显示GPU信息和驱动程序版本。

配置深度学习环境

建议使用Miniconda管理Python环境：

安装Miniconda：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

初始化conda：

~/miniconda3/bin/conda init
source ~/.bashrc

创建并激活专用于《动手学深度学习》的环境：

conda create -n d2l python=3.8
conda activate d2l

远程开发工作流

使用Jupyter Notebook进行开发

在EC2实例上启动Jupyter：

jupyter notebook --no-browser --port=8888

在本地建立SSH隧道：

ssh -i "key.pem" ubuntu@ec2-xx-xxx-xxx-xxx.compute.amazonaws.com -L 8889:localhost:8888

在本地浏览器访问：将Jupyter输出的URL中的8888改为8889即可

文件传输方法

使用scp命令上传/下载文件：

# 上传本地文件到服务器
scp -i key.pem local_file ubuntu@ec2-xx-xxx-xxx-xxx.compute.amazonaws.com:~/remote_path

# 从服务器下载文件
scp -i key.pem ubuntu@ec2-xx-xxx-xxx-xxx.compute.amazonaws.com:~/remote_file local_path