想训练AI模型，实验室GPU显存不够怎么办

原创已于 2024-03-27 18:41:16 修改 · 4.1k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2024-03-27 18:18:55 首次发布

文章探讨了OpenAI推动的人工智能应用中，大模型对高算力和显存的需求，以及高校实验室面临的困难。DeepLn算力云以低成本提供大显存GPU，如A100、RTX8000等，显著降低了科研用户在云端计算的成本。

该文章已生成可运行项目，

近年来，OpenAI带火了大模型，人工智能应用进入了黄金时代，几乎各行各业都在努力进行人工智能落地应用探索。

客观上说，大模型效果的确好，对算力资源的消耗却非常高。其中训练时间长不说，显存的硬性需求更是直接决定了能否完成训练。虽然通过程序优化能够降低一些显存使用，但又可能面临着精度损失，对于精益求精的科研工作者而言，的确是让人纠结。

我们DeepLn算力云以常见的开源模型LLaMA为例，不同参数量下的微调，无论是LoRA微调还是全量微调，所需相关显存和算力都不小。

模型	LoRa (4Bit量化)最低显存	全参微调(FP16)最低显存	LoRA微调建议GPU	全参微调建议GPU
LLaMA-7B	6GB	84GB	RTX 3060, GTX 1660, 2060 AMD 5700 XT RTX 3050	RTX4090 * 4, Tesla V100 32G * 4 Tesla V100 16G * 6 Tesla A100 40G * 2 Tesla A100 80G * 2
LLaMA-13B	10GB	156GB	AMD 6900 XT RTX 2060 12GB RTX3060，3080 A2000	RTX 4090 * 8 Tesla V100 32G * 6 Tesla A100 40G * 4 Tesla A100 80G *2
LLaMA-30B	20GB	360GB	A5000, RTX 6000 RTX3090, 4090 Tesla V100 Tesla P40	Tesla V100 32G * 12 Tesla A100 40G * 10 Tesla A100 80G * 6
LLaMA-65B	40GB	780GB	A100 40GB, A40 2×3090, 2×4090 RTX A6000 RTX 8000	Tesla V100 32G * 26 Tesla A100 40G * 20 Tesla A100 80G * 10
ChatGLM2-6B	6GB	84GB	RTX 3060 GTX 1660, 2060 AMD 5700 XT RTX 3050	RTX4090 * 4 Tesla V100 32G * 4 Tesla V100 16G * 6 Tesla A100 40G * 2 Tesla A100 80G * 2