24、Ray AI 库：从训练到部署的一站式解决方案

最新推荐文章于 2025-11-21 01:33:11 发布

neovim7hacker

最新推荐文章于 2025-11-21 01:33:11 发布

阅读量43

点赞数

CC 4.0 BY-SA版权

分类专栏：解锁MLOps：Ray实战指南文章标签： Ray AI Ray Data Ray Train

本文链接：https://blog.youkuaiyun.com/neovim7hacker/article/details/152240169

解锁MLOps：Ray实战指南专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Ray AI 库：从训练到部署的一站式解决方案

1. 训练加速与批量推理

在深度学习训练中，我们可以通过增加工作节点来扩大有效批量大小，从而减少训练完成时间。虽然由于通信开销，训练加速并非线性，但在实践中往往接近线性。例如，处理后的莎士比亚数据集共有 1348 个样本，每个设备的批量大小设为 16。使用 16 个 AWS 的 g4dn.4xlarge 工作节点时，有效批量大小为 256，每个 epoch 相当于 85 步，包括初始化在内，一个 epoch 大约需要 2440 秒。而使用 32 个节点时，有效批量大小为 512，每个 epoch 为 43 步，运行时间约为 1280 秒。如果在单个 GPU 上本地运行，有效批量大小会相应降低，训练速度也会成比例下降。

以下是使用训练好的模型根据提示生成文本的代码示例：

from transformers import pipeline, AutoTokenizer, GPTJForCausalLM
model = GPTJForCausalLM.from_pretrained("/local/checkpoint") 
tokenizer = AutoTokenizer.from_pretrained("/local/checkpoint")
pipe = pipeline(
    model=model,
    tokenizer=tokenizer, 
    task="text-generation", 
    torch_dtype=torch.float16, 
    device_map="auto",
)
# Generate from promp