云平台分布式训练指南
1. Google Cloud 分布式训练
Google Cloud Platform (GCP) 是一套云计算服务,运行在谷歌为其终端用户产品(如谷歌搜索和 YouTube)内部使用的相同基础设施上。为了进行分布式训练,我们将使用两个 GCP 服务:Google Cloud Storage (GCS) 用于保存检查点和训练好的模型,Compute Engine 用于创建虚拟机(VMs)。
1.1 注册 GCP 账户
如果你已经有 GCP 账户,可以跳过此部分。若没有,请在 https://cloud.google.com 创建 GCP 账户。谷歌为教育和学习提供 300 美元的信用额度,我们将使用这个免费账户进行练习。对于商业和生产部署,你必须启用计费。创建账户后,登录 https://console.cloud.google.com 的 Google Cloud 控制台。成功登录后,你将进入 GCP 仪表盘。
1.2 创建 Google Cloud Storage 存储桶
GCS 是 Google Cloud 上高度耐用的对象存储,可扩展以存储 EB 级数据。GCS 存储桶类似于文件系统中的目录,可通过以下两种方式创建:
- 通过 Web UI 创建 :
1. 登录
超级会员免费看
订阅专栏 解锁全文
556

被折叠的 条评论
为什么被折叠?



