Llama3-Tutorial之LMDeploy高效部署Llama3实践

KD335

已于 2024-05-10 02:15:13 修改

阅读量452

点赞数 3

文章标签：人工智能

于 2024-05-10 01:54:07 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_65461886/article/details/138632748

版权

参考机智流官方教程
Llama3-Tutorial/docs/llava.md at main · SmartFlowAI/Llama3-Tutorial (github.com)

在开发机环境下，使用这个代码

studio-conda -t lmdeploy -o pytorch-2.1.2

conda activate lmdeploy

pip install -U lmdeploy[all]

ln -s /root/share/new_models/meta-llama/Meta-Llama-3-8B-Instruct ~/model/Meta-Llama-3-8B-Instruct

LMDeploy服务（serve）

在前面的章节，我们都是在本地直接推理大模型，这种方式成为本地部署。在生产环境下，我们有时会将大模型封装为 API 接口服务，供客户端访问。

启动API服务器

通过以下命令启动API服务器

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

KD335

关注关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LMDeploy高效部署Llama-3-8B，1.8倍vLLM推理效率

luoganttcc的博客

10-25

883

Llama 3 近期重磅发布，发布了 8B 和 70B 参数量的模型，LMDeploy 对 Llama 3 部署进行了光速支持，同时对 LMDeploy 推理 Llama 3 进行了测试，在公平比较的条件下推理效率是 vLLM 的 1.8 倍。书生·浦语和机智流社区同学光速投稿了 LMDeploy 高效量化部署 Llama 3，欢迎 Star。

Llama3-Tutorial之Llama3本地Web Demo部署

lldhsds的专栏

05-06

642

Llama3-Tutorial之Llama3本地Web Demo部署章节。Llama3-Tutorial之Llama3本地 Web Demo部署。本文使用InternStudio进行实验，使用方法二。软链接 InternStudio 中的模型。3. Web Demo 部署。运行 web_demo.py。方法二：使用下载好的模型。

参与评论您还未登录，请先登录后发表或查看评论

Llama3-Tutorial（Llama 3 超级课堂）作业

qq_35923084的博客

05-04

1035

cd安装XTuner时会自动安装其他依赖cdcdXTuner运行此时点击URL并不能在本地浏览器直接访问，需用到1.4内容，对8501这个端口进行配置，然后在本地浏览器上直接访问。

Llama3-Tutorial（Llama 3 超级课堂）学习笔记

weixin_45483762的博客

05-13

1273

Llama3-Tutorial（Llama 3 超级课堂）学习笔记

Llama3-Tutorial之Llama3 Agent能力体验+微调（Lagent版）

lldhsds的专栏

05-07

820

Agent-FLAN 数据集是上海人工智能实验室 InternLM 团队所推出的一个智能体微调数据集，其通过将原始的智能体微调数据以多轮对话的方式进行分解，对数据进行能力分解并平衡，以及加入负样本等方式构建了高效的智能体微调数据集，从而可以大幅提升模型的智能体能力。可以看到，经过 Agent-FLAN 数据集的微调后，Llama3-8B-Instruct 模型已经可以成功地调用工具了，其智能体能力有了很大的提升。我们已经为大家准备好了可以一键启动的配置文件，主要是修改好了模型路径、对话模板以及数据路径。

Llama3-Tutorial（Llama 3 超级课堂）-- 笔记

Hayden的博客

05-12

1192

vscode里面设置端口转发参考。

Llama3-Tutorial 命令部署、微调（XTuner）、量化

luopu873的博客

05-19

722

模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、KV Cache占用的显存，以及中间运算结果占用的显存。LMDeploy的KV Cache管理器可以通过设置--cache-max-entry-count参数，控制KV缓存占用剩余显存的最大比例。量化工作结束后，新的HF模型被保存到Meta-Llama-3-8B-Instruct_4bit目录。下面通过几个例子，来看一下调整--cache-max-entry-count参数的效果。cache-max-entry-count修改为0.01。

Llama 3 Web Demo 部署- XTuner 小助手微调- LMDeploy 部署 Llama 3

weixin_46524125的博客

05-05

1038

本博客为基于机智流、Datawhale、ModelScope：Llama3-Tutorial（Llama 3 超级课堂）的作业。

Llama3-Tutorial之XTuner微调Llama3个人小助手

lldhsds的专栏

05-06

383

Llama3-Tutorial之XTuner微调Llama3个人小助手。使用XTuner微调llama3模型。但是训练后的模型丢失了之前模型的认知。3. XTuner配置文件准备。2. 自我认知训练数据集准备。1. web demo部署。

Llama3 Web Demo部署+Xtuner 完成小助手微调+LMDeploy部署

cyuyancaiji的博客

05-04

2155

Llama3-Tutorial（Llama 3 超级课堂）-带大家熟悉 Llama 3 微调、量化部署、评测全链路（基于书生·浦语大模型工具链）-课程作业

阿里开源 CosyVoice2：打造 TTS 文本转语音实战应用

蜗牛的博客

05-23

1527

阿里通义实验室推出的音频基座大模型 FunAudioLLM 包含 SenseVoice 和 CosyVoice 两大模型。CosyVoice 2.0 在多语言支持、超低延迟、高精度、强稳定性和自然体验方面均有显著提升。它支持中文、英文、日文、韩文及多种中文方言，并实现了跨语言和混合语言的语音克隆。CosyVoice 2.0 集成了离线和流式建模技术，首包合成延迟低至150毫秒，发音错误率减少了30%到50%，并在基准测试中达到了最低字符错误率。

YOLO12改进-Backbone-引入Swin Transformer替换backbone

qq_64693987的博客

05-23

1297

在计算机视觉领域，卷积神经网络（CNNs）和Transformer架构分别在不同任务中取得了显著成功。受Transformer在自然语言处理中的启发，研究人员将其应用于视觉任务，但面临计算复杂度高等挑战。SwinTransformer通过引入滑动窗口机制和层次化设计，有效降低了计算复杂度，同时保持了Transformer的建模能力。改进后的SwinTransformer结合了移位窗口自注意力和相对位置偏差，进一步提升了模型性能。此外，SwinTransformer与YOLOv12的结合，通过层次化特征图和移

Prompt Tuning：优化提示调优全攻略

最新发布

ZJQ的博客

05-26

219

Prompt Tuning（提示调优）是一种通过优化提示词来调整预训练语言模型行为的技术。主要变体包括：Prefix Tuning（添加可训练前缀向量）、Hard-Prompt Tuning（直接使用自然语言提示）、Soft-Prompt Tuning（学习通用提示向量）、Prompt Ensemble（多提示集成）和Auto-Prompt（自动搜索最优提示）。其中Hard-Prompt Tuning最为直观，可通过自然语言指令（如"这段文字的情感是积极的"）引导模型输出。代码示例展示了

一、OpenCV的基本操作

qq_48904748的博客

05-23

446

OpenCV是一个功能强大的计算机视觉库，包含多个模块，如图像处理、视频分析、机器学习等。基础操作包括图像的IO操作、绘制几何图形、获取和修改像素点、获取图像属性、图像通道的拆分与合并以及色彩空间的转换。此外，OpenCV还支持图像的算术操作，如图像的加法和混合，这些操作可以用于图像增强和合成。通过这些功能，OpenCV能够处理各种图像处理任务，为计算机视觉应用提供强大的支持。

基于音频Transformer与动作单元的多模态情绪识别算法设计与实现（在RAVDESS数据集上的应用）

weixin_42380711的博客

05-24

1468

摘要：情感识别技术在医学、自动驾驶等多个领域的广泛应用，正吸引着研究界的持续关注。本研究提出了一种融合语音情感识别（SER）与面部情感识别（FER）的自动情绪识别系统。实验结果显示，通过附加多层感知器进行整体微调时取得最佳准确率，验证了迁移学习相较于从头训练更具鲁棒性，且预训练知识有助于任务适应。在FER方面，通过提取视频动作单元对比静态模型与顺序模型的性能差异，发现两者差异较小。错误分析表明，视觉系统可通过高情绪负载帧检测器进行优化，这为视频情感识别方法研究提供了新思路。

React笔记-Ant Design X样本间对接智谱AI

IT1995的博客

05-26

475

本文介绍了如何将AntDesignX样本间对接智谱AI的API接口。主要步骤包括：1）搭建AntDesignX样本间；2）获取智谱AI的API接入信息；3）修改代码中的请求配置，设置基础URL、API密钥和模型参数；4）调整请求处理逻辑，实现流式响应处理和数据拼接。关键点在于正确配置请求参数和实现流式数据的实时更新，最终完成与智谱AI的对接。

使用llama-factory配置数据集

03-01

对于希望利用 `Llama-Factory` 来配置数据集的情况，虽然直接针对此工具的具体指南可能未被提及于给定资料中，但从现有信息可以推断出一些通用实践方法。 #### 准备环境与获取代码库为了开始使用 `Llama-Factory` ...