llama.cpp模型推理之界面篇

最新推荐文章于 2025-05-31 22:43:02 发布

joimson

最新推荐文章于 2025-05-31 22:43:02 发布

阅读量9k

点赞数 20

CC 4.0 BY-SA版权

文章标签：学习 llama

本文链接：https://blog.youkuaiyun.com/joimson/article/details/135486306

前言

一、llama.cpp 目录结构

二、llama.cpp 之 server 学习

前言

在《基于llama.cpp学习开源LLM本地部署》这篇中介绍了基于llama.cpp学习开源LLM本地部署。在最后简单介绍了API 的调用方式。不习惯命令行的同鞋，也可以试试 llama.cpp 界面的交互方式，本章就详细介绍一下server。

一、llama.cpp 目录结构

整个目录比较简洁，没多少东西，以最少的代码实现最全的功能，值得学习。文档都很全，基本上在学习该推理框架时遇到或者没有想到，你都能在根目录或子目录的README.md 找到。

本章主要讲 server的界面。可以在examples/server下看看README。或者直接翻到根目录下打开README.md. 找到如下点击：

二、llama.cpp 之 server 学习

1. 介绍

llama.cpp 的 server 服务是基于 httplib 搭建的一个简单的HTTP API服务和与llama.cpp交互的简单web前端。

server命令参数：

--threads N, -t N: 设置生成时要使用的线程数.
-tb N, --threads-batch N: 设置批处理和提示处理期间使用的线程数。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

joimson

关注关注

20
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

欺诈文本分类检测（十八）：基于llama.cpp+CPU推理

golfxiao的专栏

11-09

1463

我们用Lora训练出自己的个性化模型后，首先面临的问题是：如何让模型在普通机器上跑起来？毕竟模型微调训练时都是在几十G的专用GPU上训练的，如果换到只有CPU的普通电脑上，可能会面临几秒蹦一个词的尴尬问题。LLama.cpp项目就是来解决这个问题的，它是由Georgi Gerganov开发的一个开源工具，主要用于将大语言模型（LLM）转换为C++代码，使它们可以在任意的CPU设备上运行。无需依赖pytorch和python，而是以c++编译的可执行文件来运行。

玩转大语言模型——Ubuntu系统环境下使用llama.cpp进行CPU与GPU混合推理deepseek

艾醒的博客

03-04

797

llama.cpp是一个基于C/C++的开源项目，旨在高效地运行大型语言模型推理。纯采用纯C/C++编写，不依赖其他外部库，可移植性强，只要环境支持C/C++运行，就能运行llama.cpp。支持Apple芯片，通过ARM NEON等框架进行优化；支持x86架构的AVX等指令集；提供自定义CUDA内核，支持NVIDIA、AMD等GPU，还支持Vulkan和SYCL后端，可实现CPU+GPU混合推理。除此之外还支持1.5位到8位的整数量化，加快推理速度并减少内存使用，便于在资源有限的设备上运行。

参与评论您还未登录，请先登录后发表或查看评论

llama-api-server：打造开源AI模型的RESTful API服务

gitblog_00726的博客

03-29

1030

llama-api-server：打造开源AI模型的RESTful API服务项目介绍 llama-api-server 是一个开源项目，旨在构建一个兼容 OpenAI API 的 REST-ful API 服务器，使用开源后端如 llama/llama2。通过该项目，用户可以将自己的模型与许多常见的 GPT 工具和框架兼容，从而在本地或服务器上部署和运行自定义的 AI 模型。项目技术分析技...

使用LlamaCPP进行大模型推理

ppoojjj的博客

07-08

401

在本文中，我们将介绍如何使用库与LlamaIndex进行大模型推理。我们将使用模型，并且会展示如何正确配置提示格式。以下是主要步骤的安装和配置指南。

什么是llama.cpp

最新发布

ms44的专栏

05-31

997

llama.cpp是一个高效轻量的C/C++框架，用于在普通硬件上运行大型语言模型。它支持多种量化技术(1.5-8位)和硬件加速(CPU/GPU)，特别优化了Apple Silicon性能。核心特性包括GGUF模型格式、多模态支持、128k长上下文处理，以及Metal/CUDA/Vulkan后端。相比HuggingFace等框架，它更轻量、低内存，适合本地部署，但配置要求较高。该项目持续演进，已支持多GPU并行、滑动窗口注意力等先进功能。

【大模型】大模型 CPU 推理之 llama.cpp

Zack的博客

04-02

3435

【大模型】大模型 CPU 推理之 llama.cpp

大模型部署工具 llama.cpp 介绍与安装使用

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

使用llama.cpp实现LLM大模型的格式转换、量化、推理、部署

m0_65555479的博客

08-06

2349

llama.cpp的主要目标是能够在各种硬件上实现LLM推理，只需最少的设置，并提供最先进的性能。提供1.5位、2位、3位、4位、5位、6位和8位整数量化，以加快推理速度并减少内存使用。

llama.cpp: 高性能大语言模型推理引擎

m0_75126181的博客

09-27

1241

无论是个人用户还是企业开发者,如果您需要在本地环境中部署和使用大语言模型,llama.cpp都是一个值得考虑的选择。随着项目的不断发展和社区的持续贡献,相信llama.cpp会变得越来越强大,为AI技术的普及和应用做出重要贡献。llama.cpp是一个用纯C/C++编写的开源大语言模型推理库,旨在实现高性能、跨平台的LLM推理。总的来说,llama.cpp为本地部署大语言模型提供了一个高性能、易用的解决方案。随着AI技术的发展和隐私保护需求的增加,相信llama.cpp会在未来发挥更大的作用。

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

热门推荐

god_Zeo的安全博客

04-23

2万+

前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。然而那些手头没有顶级显卡的朋友们，就只能看看而已了但是 Georgi Gerganov 开源了一个项目llama.cpp次项目的牛逼之处就是没有GPU也能跑LLaMA模型大大降低的使用成本，本文就是时间如何在我的 mac m1 pro 上面跑起来这个模型。

为什么提到各种本地化部署模型软件时总要提到 llama.cpp?

qq_43819568的博客

12-29

1651

cpp尽管名字里有 “cpp”，它实际上指的是基于 C++ 开发的一整套工具，用于高效地在本地运行大语言模型（LLM）。

llama.cpp使用

m0_61797126的博客

07-21

3694

由于该库在不断更新，请注意以官方库的说明为准。目前互联网上很多教程是基于之前的版本，而2024年6月12日后库更新了，修改了可执行文件名，导致网上很多教程使用的quantize、main、server等指令无法找到，在当前版本（截至2024年7月20日）这些指令分别被重命名为llama-quantize、llama-cli、llama-server。

基于llama.cpp的推理性能测试

qq_15945247的博客

05-23

2180

llama.cpp推理框架

llama.cpp试用

tych22000的博客

05-13

1014

显存占用是真的低，13B vicuna int4量化，example/chat-13B.sh 正常问答交流，不到2G的占用。相比之下，vicuna7B原版int8量化，8G显卡下，cuda会OOM (原版不支持int4量化)。chatglm6B int4量化，显存占用仍然需要6G。

【项目分析】llama.cpp工程

知识，既贵，又便宜。

11-06

2654

Llama.cpp是一个基于C++编写的高性能大模型推理框架，旨在提供快速、稳定且易于使用的计算工具，原本的目标是允许在MacBook上使用INT4量化的LLaMA模型，但现在Llama.cpp支持多种计算模式，包括向量计算、矩阵运算、图算法等，可广泛应用于机器学习、图像处理、数据分析等领域。

(译) Llama.cpp 教程：高效 LLM 推理和实现的完整指南

0x0007 的博客

06-05

1万+

这本关于 Llama.cpp 的全面指南将带你一步步探索设置开发环境、了解其核心功能以及利用其功能解决现实世界问题的必要知识。

llama.cpp 源码解析

chumingqian的博客

11-07

1万+

0 前言1 代码结构&调用流程2 逐算子解析0 前言在上一篇文章，我们结合源码一起看了Meta开源的大语言模型llama 2的模型结构细节，并且还在B站录制了一个讲解视频方便大家理解，大家可以先回顾一下B站视频解析Llama2(B站 CodeLearner)而为了更好的了解llama 2在推理时的算子调用情况，以及大模型在实际推理时一些的瓶颈所在，所以本文继前文之后，选择了一个大模型推理框架llama.cpp 来进一步学习LLM的推理与部署。

llama.cpp Mac版本llama

强化学习曾小健

07-15

1679

骆驼.cpp纯C/C++中模型的推理持 64 的超级块大小目录描述主要目标llama.cpp是在 MacBook 上使用 4 位整数量化运行 LLaMA 模型ARM NEONF16/F32精度最初的实现llama.cpp了。从那时起，由于许多贡献，该项目有了显着改进。该项目用于教育目的，并作为开发库新功能的主要平台。以下是使用 LLaMA-7B 的典型运行：7n512I llama.cppIUNAME_S: DarwinI。

Llama.cpp简介

old_power的博客

02-06

1498

Llama.cpp 是一个高效、灵活的 LLM 推理工具，特别适合在本地设备上运行大型语言模型。它通过量化、硬件加速和混合推理等技术，显著降低了资源需求，同时保持了较高的推理性能。无论是开发者还是普通用户，都可以通过 Llama.cpp 轻松部署和运行 LLM 模型。

llama.cpp运行deepseek本地模型文件

02-09

### 使用 `llama.cpp` 在本地运行 DeepSeek 模型为了在本地环境中使用 `llama.cpp` 运行 DeepSeek 模型，需遵循特定流程来准备环境并加载模型。DeepSeek 是一种基于 LLaMA 架构的语言模型，而 `llama.cpp` 提供了一种高效的方法来部署这些模型。 #### 准备工作安装依赖库和工具链对于成功编译和运行 `llama.cpp` 至关重要。建议从官方 GitHub 仓库获取最新版本的源码[^1]： ```bash git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp make ``` #### 获取 DeepSeek 模型权重由于 DeepSeek 并不是一个公开的标准名称下的预训练模型集合的一部分，因此需要确认具体使用的 DeepSeek 版本及其对应的权重文件格式。通常情况下，LLaMA 类型的模型会提供 `.bin` 或者 GGML/GGUF 格式的量化参数文件。如果手头有的是 Hugging Face PyTorch checkpoint，则应先将其转换成适合 `llama.cpp` 的格式[^2]。 #### 转换模型至兼容格式当前推荐的做法是从 Hugging Face checkpoints 转换成 GGUF 格式，这可以通过脚本 `convert-hf-to-gguf.py` 完成而不是旧版的 `convert.py`: ```bash python3 convert-hf-to-gguf.py path/to/hf/checkpoint output.gguf ``` 此命令假设用户已下载好来自 Hugging Face 的原始checkpoint，并指定了输出路径保存转换后的GGUF文件。 #### 加载与推理一旦拥有了正确的模型文件（如上述过程产生的`.gguf`），就可以通过如下方式启动交互式shell来进行测试： ```cpp ./main -m path/to/output.gguf ``` 该指令将会调用 `llama.cpp` 中实现的功能读取指定位置上的模型数据，并进入一个简单的命令行界面允许输入提示词获得回应。