大规模训练作业的存储与成本优化策略
1. 大规模训练作业的存储选择
在大规模、高性能的训练作业中,使用 S3 存储训练数据可能会因吞吐量和延迟问题成为瓶颈。因此,我们需要考虑其他存储服务:
- Amazon Elastic File System (EFS) : https://aws.amazon.com/efs
- Amazon FSx for Lustre : https://aws.amazon.com/fsx/lustre
使用这些存储服务需要一定的 AWS 知识,如 VPC、子网和安全组。若不熟悉,可参考以下链接:
- https://docs.aws.amazon.com/vpc/latest/userguide/VPC_Subnets.html
- https://docs.aws.amazon.com/vpc/latest/userguide
超级会员免费看
订阅专栏 解锁全文
13

被折叠的 条评论
为什么被折叠?



