Ray AI 库:从训练到部署的一站式解决方案
1. 训练加速与批量推理
在深度学习训练中,我们可以通过增加工作节点来扩大有效批量大小,从而减少训练完成时间。虽然由于通信开销,训练加速并非线性,但在实践中往往接近线性。例如,处理后的莎士比亚数据集共有 1348 个样本,每个设备的批量大小设为 16。使用 16 个 AWS 的 g4dn.4xlarge 工作节点时,有效批量大小为 256,每个 epoch 相当于 85 步,包括初始化在内,一个 epoch 大约需要 2440 秒。而使用 32 个节点时,有效批量大小为 512,每个 epoch 为 43 步,运行时间约为 1280 秒。如果在单个 GPU 上本地运行,有效批量大小会相应降低,训练速度也会成比例下降。
以下是使用训练好的模型根据提示生成文本的代码示例:
from transformers import pipeline, AutoTokenizer, GPTJForCausalLM
model = GPTJForCausalLM.from_pretrained("/local/checkpoint")
tokenizer = AutoTokenizer.from_pretrained("/local/checkpoint")
pipe = pipeline(
model=model,
tokenizer=tokenizer,
task="text-generation",
torch_dtype=torch.float16,
device_map="auto",
)
# Generate from promp
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



