Llama 3.1 介绍
2024 年 7 月 24 日,Meta 宣布推出迄今为止最强大的开源模型——Llama 3.1 405B,Llama 3.1 405B 支持上下文长度为 128K Tokens, 增加了对八种语言的支持,号称第一个在常识、可操纵性、数学、工具使用和多语言翻译方面与顶级人工智能模型相媲美的模型。
当然 405B 新一代大模型所需要的算力成本也是巨大的,一般的中小型企业和个人需要慎重评估一下成本与产出是否值得应用。好在作为新版本发布的一部分,官方也同时推出全新升级的 Llama 3.1 70B 和 8B 模型版本。
我们今天就在百度智能云 GPU 服务器上来部署体验最新 Llama3.1 8B 模型。
安装环境
硬件环境
- 百度智能云 GPU 服务器。
本文以百度智能云 GPU 服务器为例进行安装部署,购买计算型 GN5 服务器, 配置 16 核 CPU,64GB 内存,Nvidia Tesla A10 单卡 24G 显存,搭配 100GB SSD 数据盘, 安装 Windows 2022 Server 系统。
- 如果您使用自己的环境部署,建议 NVIDIA GPU,民用卡 30、40 系列,商用卡 T4、V100、A10 等系列,至少 8G 以上显存。服务器配置建议最低配置为 8 核 32 G 100G 磁盘,5M 带宽。
安装步骤
购买服务器
- 安装操作系统
- 选择 Windows 公共镜像,支持 Windows2019 及以上版本,本教程我们选择 Windows2022 。
- 通过 VNC 登录实例,安装 GPU 驱动程序。
通过浏览器进入 NVIDIA官方驱动 下载地址,选择相应驱动下载进行安装,本教程我们选择 538.78, CUDA 版本为 12.2。
安装 Ollama 客户端
- 如果您有