通过制作llama_cpp的docker镜像在内网离线部署运行大模型

最新推荐文章于 2025-05-31 22:43:02 发布

springlustre

最新推荐文章于 2025-05-31 22:43:02 发布

阅读量2.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： linux 大模型文章标签： llama docker 大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/springlustre/article/details/134452306

对于机器在内网，无法连接互联网的服务器来说，想要部署体验开源的大模型，需要拷贝各种依赖文件进行环境搭建难度较大，本文介绍如何通过制作docker镜像的方式，通过llama.cpp实现量化大模型的快速内网部署体验。

一、llama_cpp介绍

LLaMA 全称是Large Language Model Meta AI，是由Meta AI（原FacebookAI研究实验室）研究人员发布的一个预训练语言模型。该模型最大的特点就是基于以较小的参数规模取得了优秀的性能，模型参数量从7B到65B，与其他大型语言模型一样，LLaMA的工作原理是将一连串的单词作为输入，并预测下一个单词，以递归地生成文本。

LLaMA.cpp 项目是开发者 Georgi Gerganov 基于 Meta 的 LLaMA 模型实现的纯 C/C++ 版本，用于模型推理。无需任何额外依赖，相比 Python 代码对 PyTorch 等库的要求，C/C++ 直接编译出可执行文件，跳过不同硬件的繁杂准备，可以在笔记本上运行，大大降低了门槛。

项目开源地址：GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

二、镜像制作过程

1、下载基础镜像

在dockerhub上下载对应的镜像版本，关注需要的cuda版本和操作系统版本。

docker pull nvidia/cuda:11.2.2-devel-ubuntu20.04

运行镜像

docker run -id --gpus all -v D:\download:/app/model -p 8080:8080&nbs

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。