在AWS EC2上搭建深度学习环境：D2L项目实践指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00735/article/details/148361012

在AWS EC2上搭建深度学习环境：D2L项目实践指南

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

前言

对于深度学习研究者和开发者来说，拥有一个强大的GPU计算环境至关重要。本文将详细介绍如何在AWS EC2云服务器上从零开始搭建一个完整的深度学习环境，特别适合运行《动手学深度学习》(D2L)项目中的代码示例。相比直接使用Amazon SageMaker，自行搭建EC2实例可以显著降低成本。

准备工作

在开始之前，您需要确保已经完成以下准备工作：

拥有有效的AWS账户
了解基本的Linux命令行操作
准备好SSH客户端工具

创建EC2实例

1. 选择合适的数据中心

登录AWS控制台后，进入EC2服务面板。首先需要选择地理位置接近的数据中心，这能显著降低网络延迟。例如：

北美用户可选择"俄勒冈"(Oregon)
亚洲用户可选择"首尔"或"东京"
欧洲用户可选择"法兰克福"或"爱尔兰"

注意：部分数据中心可能不提供GPU实例。

2. 检查并调整实例配额

AWS对新账户有实例类型限制。在创建实例前，建议先检查您的配额：

在EC2控制台左侧导航栏点击"Limits"
查找您需要的实例类型(如p2.xlarge)
如果配额不足，点击"Request limit increase"提交申请

配额申请通常需要1个工作日处理。

3. 选择适合的实例类型

AWS提供多种GPU实例类型，以下是常见选项对比：

| 实例系列 | GPU架构 | 适用场景 | |---------|--------------|----------------------------| | g2 | Grid K520 | 已过时，不推荐使用 | | p2 | Kepler K80 | 性价比高，适合预算有限的项目 | | g3 | Maxwell M60 | 平衡性能和成本的选择 | | p3 | Volta V100 | 高性能，支持FP16运算 | | p4 | Ampere A100 | 大规模训练的最佳选择 | | g4 | Turing T4 | 推理优化，支持FP16/INT8 |

对于D2L项目中的大多数示例，p2.xlarge(1个K80 GPU)已经足够。如果预算充足，可以选择更高性能的实例。

4. 配置实例详情

在选择实例时，需要注意以下关键配置：

操作系统镜像(AMI)：推荐使用Ubuntu最新LTS版本
存储空间：建议至少64GB，因为CUDA本身就需要约4GB空间
密钥对：创建新的密钥对或使用现有密钥对，这是SSH登录的唯一凭证

完成配置后，点击"Launch Instance"启动实例。

连接到实例

实例启动后(状态显示为"running")，可以通过SSH连接：

首先确保密钥文件权限正确：

chmod 400 your-key.pem

使用EC2提供的连接命令登录：

ssh -i "your-key.pem" ubuntu@your-instance-public-dns

首次连接时会提示确认主机密钥，输入"yes"继续。

安装CUDA和驱动

1. 更新系统并安装基础工具

sudo apt-get update && sudo apt-get install -y build-essential git libgfortran3

2. 安装CUDA 12.1

以下是安装CUDA 12.1的完整步骤：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin
sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/12.1.0/local_installers/cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo dpkg -i cuda-repo-ubuntu2204-12-1-local_12.1.0-530.30.02-1_amd64.deb
sudo cp /var/cuda-repo-ubuntu2204-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
sudo apt-get update
sudo apt-get -y install cuda

安装完成后，验证GPU是否被正确识别：

nvidia-smi

3. 配置环境变量

将以下内容添加到~/.bashrc文件末尾：

export PATH="/usr/local/cuda-12.1/bin:$PATH"
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-12.1/lib64

然后使配置生效：

source ~/.bashrc

安装深度学习环境

按照D2L项目中Linux环境安装指南配置Python环境：

安装Miniconda
创建并激活conda环境
安装PyTorch等深度学习框架

远程使用Jupyter Notebook

为了在本地浏览器中使用运行在EC2上的Jupyter Notebook，需要设置SSH端口转发：

在本地终端执行：

ssh -i "/path/to/key.pem" ubuntu@your-instance-public-dns -L 8889:localhost:8888

在EC2实例上启动Jupyter Notebook：

conda activate d2l
jupyter notebook

复制输出的URL到本地浏览器，将端口8888改为8889即可访问。

实例管理最佳实践

为了优化成本，建议：

停止(Stop)：暂时不需要时停止实例，避免计算资源费用
终止(Terminate)：完全删除实例及其存储，适用于不再需要的情况
创建镜像(AMI)：将配置好的环境保存为镜像，方便后续快速创建相同环境的实例

性能优化建议

使用Spot实例可以显著降低成本(可达按需实例的70-90%折扣)
对于大型项目，考虑使用多GPU实例(p2.8xlarge或p3.16xlarge)
定期检查AWS推出的新型实例，如基于Ampere架构的实例通常性价比更高

总结

通过本文的步骤，您已经成功在AWS EC2上搭建了一个完整的深度学习开发环境。这种云服务方式让您无需前期硬件投资就能获得强大的计算能力，特别适合深度学习研究和小规模团队开发。记住合理管理实例生命周期可以显著降低成本，而创建环境镜像则能大大提高工作效率。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考