大模型_云游的博客-优快云博客

大模型

关注

文章平均质量分 81

关注数：文章数：54 文章阅读量：72072 文章收藏量：664

作者: 云游

利用自己的绵薄力量帮助别人少走弯路

展开

专栏收录文章

基于国产DCU-Z100的GPU在公安网部署GLM-4-9B

在公安网的国产GPU上部署开源大模型

原创 2024-08-04 14:44:05 · 1712 阅读 · 1 评论
Postgresql17数据库中通过代码安装向量插件:PGVector0.8.1

pgvector 是一个为 PostgreSQL 数据库开发的开源扩展，它使得 PostgreSQL 能够原生支持向量（Vector）数据类型和向量相似性搜索，是构建 AI 应用（尤其是基于大语言模型 LLM 的应用）的关键基础设施。将向量与其余数据一起存储。支持：1.精确和近似最近邻搜索2.单精度、半精度、二进制和稀疏向量3.L2距离、内积、余弦距离、L1距离、汉明距离和雅克卡德距离4.具有Postgres客户端的任何语言。

原创 2025-09-19 19:33:09 · 891 阅读 · 0 评论
Vllm-0.10.1：vllm bench serve参数说明

请求速率爬升策略：<br>linear: 线性增长<br>exponential: 指数增长<br>需配合 --ramp-up-start-rps 和 --ramp-up-end-rps 使用。--random-range-ratio float 0.0 输入/输出长度采样范围：[len*(1-r), len*(1+r)]，实现长度波动（如 0.1 表示 ±10%）。--sonnet-prefix-len int 200 前缀 token 数（可用于测试 prefix caching 性能）。

原创 2025-09-06 21:11:43 · 2293 阅读 · 0 评论
Vllm-0.10.1：通过vllm bench serve测试TTFT、TPOT、ITL、E2EL四个指标

摘要：本文介绍了在KVM虚拟机环境下使用4张英伟达A6000 GPU进行大模型推理的性能测试，重点关注四个关键指标：首次生成token时间(TTFT)、每个token平均生成时间(TPOT)、token间延迟(ITL)和端到端延迟(E2EL)。测试基于DeepSeek-R1-Distill-Qwen-32B模型，使用vLLM 0.10.1框架，详细说明了参数配置方法（如max-model-len和max-num-batched-tokens的计算）和优化方向。测试采用ShareGPT数据集，设置输出长度为1

原创 2025-09-06 20:55:58 · 2010 阅读 · 0 评论
TensorRT-LLM.V1.1.0rc0:在无 GitHub 访问权限的服务器上编译 TensorRT-LLM 的完整实践

1.NGC上的预构建发布容器进行部署,见《2.通过pip进行部署。3.从源头构建再部署。在实际开发中，我们常常面临这样的场景：本地笔记本为 Windows 系统，虽然可以访问 GitHub，但受限于硬件性能，编译大型项目（如 TensorRT-LLM）耗时过长；而公司或实验室提供的 Linux 服务器性能强劲，适合编译任务，但却因网络策略限制无法连接外网，尤其是无法访问 GitHub。。

原创 2025-08-17 16:25:36 · 1071 阅读 · 0 评论
TensorRT-LLM.V1.1.0rc1:Dockerfile.multi文件解读

安装基础工具（wget, git, unzip, cmake 等），可选 GitHub 镜像加速。开发环境：安装 Python、CMake、CUDA 工具链、TensorRT 等。安装较新版本的 CMake（可能比 base 镜像自带的更新）✅ 多阶段分离：开发、构建、发布、Triton 集成各司其职。使用 NVIDIA Triton Server 镜像（如。删除 wheel 文件和 pip 缓存（减小镜像体积）✅ 目的：为后续阶段提供一个干净、标准化的基础镜像。

原创 2025-08-17 15:57:17 · 920 阅读 · 0 评论
Langfuse2.60.3:独立数据库+docker部署及环境变量详细说明

Langfuse 是一个 **开源 LLM 工程** 平台。它帮助团队协作 **开发、监控、评估** 以及 **调试** AI 应用。Langfuse 可在几分钟内 **自托管**，并且经过 **实战考验**。其核心组件包括Web界面、Worker进程、Postgres数据库、Clickhouse存储等。## ✨ 核心特性[LLM 应用可观察性]：为你的应用插入仪表代码，并开始将追踪数据传送到 Langfuse，从而追踪 LLM 调用及应用中其他相关逻辑（如检索、嵌入或代理操作）

原创 2025-08-16 21:18:05 · 1233 阅读 · 0 评论
tensorrt-llm0.20.0:Prometheus3.5.0通过间接采集，进行性能指标分析

在阅读本章之前，建议您先看看我之前的两篇博客，有助于更好地理解后续内容。

原创 2025-08-16 16:36:46 · 823 阅读 · 0 评论
FastDeploy2.0:Prometheus3.5.0通过直接采集，进行性能指标分析

下图就是FastDeploy2.0的几个核心指标显示效果，后面详细介绍如何操作。

原创 2025-08-16 16:19:12 · 957 阅读 · 0 评论
大模型性能指标的监控系统（prometheus3.5.0）和可视化工具(grafana12.1.0)基础篇

Prometheus是云原生计算基金会项目，是一个系统和服务监控系统。它以给定的时间间隔从配置的目标收集指标，评估规则表达式，显示结果，并在观察到指定条件时触发警报。Prometheus与其他指标和监控系统的区别在于：多维数据模型（由度量名称和键/值维度集定义的时间序列）PromQL，一种强大而灵活的查询语言不依赖分布式存储；单个服务器节点是自主的用于时间序列收集的HTTP拉取模型通过中间网关支持推送时间序列，用于批处理作业通过服务发现或静态配置发现目标多种绘图和仪表板支持模式。

原创 2025-08-16 11:15:57 · 941 阅读 · 0 评论
tensorrt-llm0.20.0离线部署DeepSeek-R1-Distill-Qwen-32B

本文介绍了在Ubuntu 22.04系统下使用4张NVIDIA A6000显卡部署TensorRT-LLM推理服务的完整流程。主要内容包括：1) 通过Docker容器安装TensorRT-LLM环境；2) 将32B规模的DeepSeek-R1-Distill-Qwen模型权重转换为TensorRT检查点格式，并构建FP16精度的推理引擎；3) 配置并启动TRT-LLM推理服务，支持16K长文本输入；4) 提供HTTP API接口调用示例。整个过程涉及环境准备、模型转换、服务部署等关键步骤，最终实现了高性能的

原创 2025-08-12 18:30:47 · 1190 阅读 · 0 评论
FastDeploy2.0：环境变量的说明

设置日志目录# 指定使用的 GPU 设备# 创建日志目录（如果不存在）# 定义日志文件路径# 启动服务并重定向输出到日志文件，后台运行。

原创 2025-08-06 20:50:16 · 557 阅读 · 0 评论
vllm0.8.5发布Qwen2.5-Omni-7B，报python3.10/site-packages/transformers/models/autKeyError: ‘qwen2_5_omni‘

当前安装的 HuggingFace Transformers4.51.1 库不支持这种模型结构。这通常是因为该模型是新推出的，而你当前使用的 Transformers 版本尚未包含对该模型的支持。因此需要卸载旧Transformers版本，安装Transformers4.52.3版本。注：不能安装Transformers4.52.4，会导致vllm出现问题。多模态：Qwen2.5-Omni-7B。GPU:2张A6000。

原创 2025-06-14 15:28:08 · 626 阅读 · 0 评论
vllm0.5.0的api_server参数说明

API 中使用的模型名称。--max-context-len-to-capture (已废弃): 替换为 --max-seq-len-to-capture，表示由 CUDA 图覆盖的最大上下文长度或序列长度。--ngram-prompt-lookup-max, --ngram-prompt-lookup-min: 在推测解码中 ngram 提示查找窗口的最大和最小尺寸。--worker-use-ray: 已废弃，建议使用 --distributed-executor-backend=ray。

原创 2024-12-08 15:44:00 · 3435 阅读 · 0 评论
将vllm0.5.0发布多个lora模型的命令封装到Python代码中

路径：minconda3/envs/python31013new/lib/python3.10/site-packages/vllm/entrypoints/openai/cli_args.py。2张A6000的GPU。

原创 2024-12-18 16:28:53 · 618 阅读 · 0 评论
vllm0.5.0升级到vllm0.6.4报错

考虑vllm0.6.4，在性能提升、模型支持和多模态处理等方面都取得了重要的进展。在性能方面，新版本引入了多步调度 (Multistep scheduling) 和异步输出处理 (Asynchronous output processing)，优化了 GPU 的利用率并提高了处理效率，从而提高了整体的吞吐量。

原创 2024-12-09 19:52:53 · 1496 阅读 · 0 评论
FastDeploy2.0 发布参数说明

```long_prefill_token_threshold``` | `int` | 开启Chunked Prefill时，请求Token数超过此值的请求被视为长请求，默认为max_model_len*0.04 || ```guided_decoding_backend``` | `str` | 指定要使用的guided decoding后端，支持 `auto`、`xgrammar`、`off`, 默认为 `off` |

原创 2025-08-06 20:28:25 · 907 阅读 · 0 评论
FastDeploy2.0：报qwen2.embed_tokens.weight

这个权重矩阵主要负责将输入的词汇（token）转换为模型可以处理的向量形式，即进行词嵌入（embedding）形状: torch.Size([8960, 1536]), 数据类型: torch.uint16, 大小: 13,762,560。形状: torch.Size([1536, 8960]), 数据类型: torch.uint16, 大小: 13,762,560。形状: torch.Size([1536, 8960]), 数据类型: torch.uint16, 大小: 13,762,560。

原创 2025-08-05 21:52:56 · 843 阅读 · 0 评论
vllm0.5.0增加/api/paas/v4/chat/completions接口，供langchain4j-zhipu-ai工程调用

路径：minconda3/envs/python31013new/lib/python3.10/site-packages/vllm/entrypoints/openai。vllm发布的rest api接口中，包含/api/paas/v4/chat/completions接口。两张A6000GPU卡。

原创 2024-12-18 17:26:44 · 936 阅读 · 0 评论
vllm0.5.0的v1/completions各参数说明

model指定使用的语言模型名称或标识符。prompt提供给模型的输入文本，是字符串或字符串数组。stream: 是否流式返回生成的结果。: 流式响应的额外选项。: 控制输出随机性的参数，值越低，输出越确定。top_p: 核采样，只从累积概率达到此值的最小集合中选择下一个词。: 是否使用束搜索算法进行解码。top_k: 只考虑最高概率的k个词汇。user: 用户ID或其他标识符，可用于跟踪或限制API使用。best_of: 从多个候选输出中选择最佳的一个。

原创 2024-12-08 15:23:03 · 4677 阅读 · 0 评论
FastDeploy2.0：发布思考链模型时，将思考内容放到reasoning_content中返回

FastDeploy2.0是飞桨推出的高效推理部署工具包，支持LLM和VLM模型的生产级部署。核心特性包括：负载均衡PD分解、统一KV缓存传输、兼容OpenAI API与vLLM接口、全量化格式支持及多硬件加速。部署流程包含：1) 满足CUDA 12.3+等环境要求；2) 下载专用Docker容器；3) 配置GPU与内存参数启动容器；4) 运行API服务；5) 发送测试请求。工具包通过优化资源利用率和提供高级加速技术（如推测解码），显著提升大模型推理效率，支持NVIDIA GPU等多种硬件平台。典型应用场景

原创 2025-08-05 20:17:31 · 1047 阅读 · 0 评论
FastDeploy2.0:Error reading file: SafeTensorError::MetadataIncompleteBuffer

GPU:4张英伟达A6000python3.10大模型：DeepSeek-R1-Distill-Qwen-32B（aisudio上下载得）执行如下命令：报如下错误：模型文件下载不全。你说模型文件下载不全，可翻来覆去瞅了半天，愣是没看出哪个文件“缺胳膊少腿”——这感觉，就像在满屋子双胞胎里找谁多长了一根头发。模型文件一多，数着数着就眼冒金星，脑瓜子嗡嗡的，真不想重头再下一遍，光是想想，头发都快掉光了！别急，兄弟，咱打工人也有智慧闪光的时刻——难道非得靠“人肉点数大法”和“玄学肉眼扫描术”？当然不！其

原创 2025-08-06 20:17:54 · 1202 阅读 · 0 评论
vllm0.5.0发布lora模型，报ValueError: max_num_batched_tokens must be ＜= 65528 when LoRA is enabled.

默认是0.9.占用显存的比例，请根据你的显卡显存大小设置合适的值，例如，如果你的显卡有80G，您只想使用24G，请按照24/80=0.3设置。# 默认是0.9.占用显存的比例，请根据你的显卡显存大小设置合适的值，例如，如果你的显卡有80G，您只想使用24G，请按照24/80=0.3设置。"--block-size", "32" , # 增加此参数并设置合适的批量大小。"--block-size", "32" , # 增加此参数并设置合适的批量大小。# 的连续块的令牌块大小“令牌。

原创 2024-12-18 16:16:22 · 1298 阅读 · 0 评论
将vllm0.6.4发布多个lora模型的命令封装成shell脚本

为了简化Lora模型的发布流程并提高操作的便捷性与可记录性，我决定将所有相关的命令封装进一个Shell脚本（.sh文件）中。这样一来，每次需要发布Lora模型时，只需执行这个Shell脚本即可，大大减少了手动输入命令的工作量，并确保了每一步骤的一致性和准确性。

原创 2024-12-19 12:16:47 · 585 阅读 · 0 评论
如何让DeepSeek-R1-Distill-Qwen-32B支持Function calling

deep seek-r1是不支持funciton calling调用，如果想让离线版本支持function calling，那怎么弄呢。hermes 是一种特定格式的解析器，适用于某些模型输出的结构化工具调用格式（如 Hermes 系列模型）。通过vllm0.9.1发布DeepSeek-R1-Distill-Qwen-32B大语言模型。再通过下面代码调用，发现没有返回function call。说明：设置工具调用解析器类型。使用多少张 GPU 并行推理。

原创 2025-06-15 15:15:01 · 947 阅读 · 0 评论
cline或业务系统集成n8n的工作流（MCP Server Trigger、Call n8n Workflow Tool node）

Call n8n Workflow Tool节点是一个工具，它允许代理运行另一个n8n工作流并获取其输出数据。在此页面上，您将找到“调用n8n工作流工具”节点的节点参数，以及指向更多资源的链接。节点参数#输入自定义代码和描述。这告诉代理何时使用此工具。例如：调用此工具以获取随机颜色。输入应该是一个字符串，其中包含要排除的逗号分隔的颜色名称。告诉n8n要调用哪个工作流。您可以选择：数据库，从列表中选择工作流或输入工作流ID。在下面定义并复制一个完整的JSON工作流。

原创 2025-05-04 16:34:20 · 1208 阅读 · 0 评论
n8n工作流自动化平台：生成图文并茂的分析报告之Merge节点详细说明

All Possible Combinations 是生成两个数据集中所有记录之间所有可能配对的方式。这种方式也被称为“交叉连接”或“笛卡尔积”。

原创 2025-05-05 16:30:32 · 1558 阅读 · 0 评论
n8n工作流自动化平台的实操：Cannot find module ‘iconv-lite‘

n8n是一款功能强大的开源工作流自动化工具，旨在帮助用户通过可视化方式连接不同应用和服务，实现业务流程的自动化。本文章解决Cannot find module 'iconv-lite' [line 2]错误；

原创 2025-05-03 21:57:36 · 1077 阅读 · 0 评论
n8n工作流自动化平台的实操：解决中文乱码

本文解决中文乱码问题

原创 2025-05-03 22:14:13 · 1087 阅读 · 0 评论
n8n工作流自动化平台的实操：生成统计图的两种方式

注：生成单曲线，单柱状图，通过 QuickChart节点没有问题，如果有上传多条曲线，则无法实现，只能通过https://quickchart.io/chart?width=650&height=450&c={{ $json.data }}方式实现。注：通过https://quickchart.io/chart?width=650&height=450&c={{ $json.data }}实现图片的生成，图中红框部分。注：将json对象转换成字符串，主要图中的红框。注：将明细数据进行汇总。

原创 2025-05-04 09:29:01 · 1215 阅读 · 0 评论
n8n工作流自动化平台的实操：利用本地嵌入模型，完成文件内容的向量化及入库

牵涉节点：FTP、Code、Milvus Vector Store、Embeddings OpenAI、Default Data Loader、Recursive Character Text Splitter。

原创 2025-05-04 08:40:41 · 1719 阅读 · 0 评论
Coze:Window操作系统部署Coze Studio

Coze Studio，源自服务了上万家企业、数百万开发者的「扣子开发平台」，我们将它的核心引擎完全开放。它是一个一站式的 AI Agent 可视化开发工具，让 AI Agent 的创建、调试和部署变得前所未有的简单。通过 Coze Studio 提供的可视化设计与编排工具，开发者可以通过零代码或低代码的方式，快速打造和调试智能体、应用和工作流，实现强大的 AI 应用开发和更多定制化业务逻辑，是构建低代码 AI 产品的理想选择。

原创 2025-07-29 20:39:16 · 894 阅读 · 0 评论
利用n8n、DeepSeek、AI Agent、子工作流生成统计图

1.通过{{ $json.chatInput }} 接收When chat message received节点的输入；注：红框内容，需要和2.4的Workflow Inputs 对应。注：注意红框里面的内容，特别是 Description的内容。注：连上互联网的deepseek模型，这里就不详细说明。利用大模型，提取用户输入内容中的开始、结束日期。2.8postgresql节点。两种方式接收code传入的参数。2.增加合适的系统提示词。》,我在这就不详细描述。注：注意红色框内容。

原创 2025-05-04 10:28:52 · 726 阅读 · 0 评论
n8n工作流自动化平台的实操：本地化高级部署

n8n是一款功能强大的开源工作流自动化工具，旨在帮助用户通过可视化方式连接不同应用和服务，实现业务流程的自动化。本文将全面介绍n8n的本地化高级安装部署。

原创 2025-05-03 21:20:12 · 2447 阅读 · 0 评论
3.stable-diffusion1.10.0精准控制图-ControlNet插件的安装

注：从网址安装可以保证插件的更新能在 WebUI 中自动显示，如果是下载压缩包文件放进根目录，就无法自动更新。下面执行网址安装。

原创 2024-10-10 11:16:18 · 1019 阅读 · 0 评论
OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘

运行：python launch.py --use-cpu all --skip-torch-cuda-test --theme dark --precision full --no-half --listen --server-name 0.0.0.0。1.进入解压后的 stable-diffusion-webui目录，创建目录 openai。环境：centos7.9 、stable-diffusion-webui。3.在stable-diffusion-webui根目录下执行如下命令.

原创 2024-10-06 08:44:15 · 1579 阅读 · 0 评论
vllm0.8.5：自定义聊天模板qwen_nonthinking.jinja，从根本上避免模型输出＜think＞标签

用来清晰地标记函数调用的开始和结束，避免与普通文本混淆。

原创 2025-08-03 19:33:32 · 1215 阅读 · 0 评论
vllm0.8.5：思维链（Chain-of-Thought, CoT）微调模型的输出结果包括＜/think＞，提供一种关闭思考过程的方法

摘要：本文介绍了如何优化DeepSeek-R1-Distill-Qwen-1.5B大语言模型的输出处理方案。该模型经过思维链微调后，会强制输出完整的思考流程（包含<think>标签），给业务系统带来额外处理负担。作者提出通过在vLLM中配置自定义聊天模板的方法，从根本上避免模型输出<think>标签。具体操作包括：1）拉取vLLM代码并构建Docker镜像；2）启动容器时指定自定义模板文件qwen_nonthinking.jinja；3）详细说明了容器启动参数含义。这种方法无需修改业

原创 2025-08-03 19:23:49 · 1376 阅读 · 0 评论
sglang0.4.3参数说明

flashinfer_mla_disable_ragged: 是否禁用FlashInfer MLA中的ragged，默认为False。triton_attention_reduce_in_fp32: 是否在FP32中减少Triton注意力，默认为False。debug_tensor_dump_output_folder: 调试张量转储输出文件夹，未指定时为None。debug_tensor_dump_input_file: 调试张量转储输入文件，未指定时为None。这涉及到安全性和潜在风险。

原创 2025-05-31 15:28:02 · 2031 阅读 · 0 评论
cuda_fp8.h错误

cuda工具版本太低。通过nvcc --version查看。小于11.8,会报fp8错误，因此是。下载高版本，本次下载了。

原创 2025-05-31 15:21:30 · 777 阅读 · 0 评论

大模型

作者: 云游

基于国产DCU-Z100的GPU在公安网部署GLM-4-9B

Postgresql17数据库中通过代码安装向量插件:PGVector0.8.1

Vllm-0.10.1：vllm bench serve参数说明

Vllm-0.10.1：通过vllm bench serve测试TTFT、TPOT、ITL、E2EL四个指标

TensorRT-LLM.V1.1.0rc0:在无 GitHub 访问权限的服务器上编译 TensorRT-LLM 的完整实践

TensorRT-LLM.V1.1.0rc1:Dockerfile.multi文件解读

Langfuse2.60.3:独立数据库+docker部署及环境变量详细说明

tensorrt-llm0.20.0:Prometheus3.5.0通过间接采集，进行性能指标分析

FastDeploy2.0:Prometheus3.5.0通过直接采集，进行性能指标分析

大模型性能指标的监控系统（prometheus3.5.0）和可视化工具(grafana12.1.0)基础篇

tensorrt-llm0.20.0离线部署DeepSeek-R1-Distill-Qwen-32B

FastDeploy2.0：环境变量的说明

vllm0.8.5发布Qwen2.5-Omni-7B，报python3.10/site-packages/transformers/models/autKeyError: ‘qwen2_5_omni‘

vllm0.5.0的api_server参数说明

将vllm0.5.0发布多个lora模型的命令封装到Python代码中

vllm0.5.0升级到vllm0.6.4报错

FastDeploy2.0 发布参数说明

FastDeploy2.0：报qwen2.embed_tokens.weight

vllm0.5.0增加/api/paas/v4/chat/completions接口，供langchain4j-zhipu-ai工程调用

vllm0.5.0的v1/completions各参数说明

FastDeploy2.0：发布思考链模型时，将思考内容放到reasoning_content中返回

FastDeploy2.0:Error reading file: SafeTensorError::MetadataIncompleteBuffer

vllm0.5.0发布lora模型，报ValueError: max_num_batched_tokens must be ＜= 65528 when LoRA is enabled.

将vllm0.6.4发布多个lora模型的命令封装成shell脚本

如何让DeepSeek-R1-Distill-Qwen-32B支持Function calling

cline或业务系统集成n8n的工作流（MCP Server Trigger、Call n8n Workflow Tool node）

n8n工作流自动化平台：生成图文并茂的分析报告之Merge节点详细说明

n8n工作流自动化平台的实操：Cannot find module ‘iconv-lite‘

n8n工作流自动化平台的实操：解决中文乱码

n8n工作流自动化平台的实操：生成统计图的两种方式

n8n工作流自动化平台的实操：利用本地嵌入模型，完成文件内容的向量化及入库

Coze:Window操作系统部署Coze Studio

利用n8n、DeepSeek、AI Agent、子工作流生成统计图

n8n工作流自动化平台的实操：本地化高级部署

3.stable-diffusion1.10.0精准控制图-ControlNet插件的安装

OSError: Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘

vllm0.8.5：自定义聊天模板qwen_nonthinking.jinja，从根本上避免模型输出＜think＞标签

vllm0.8.5：思维链（Chain-of-Thought, CoT）微调模型的输出结果包括＜/think＞，提供一种关闭思考过程的方法

sglang0.4.3参数说明

cuda_fp8.h错误