基于KeyarchOS(KOS操作系统)实现vLLM监控指标可视化

目录

1 概述

2 环境准备

3 vLLM监控指标可视化呈现


1 概述

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126

vLLM是一种用于大规模语言模型(LLM)推理的框架,旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略,显著提升了模型在高并发场景下的性能。vLLM利用了一种名为PagedAttention的注意力机制,该机制借鉴了虚拟内存和分页技术,以减少缓存内存(KV Cache)的浪费,并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下,能够将吞吐量提高2到4倍。官方网址:https://www.vllm.ai

vLLM提供了丰富的推理服务监控指标,便于推理服务运维人员快速了解推理服务系统性能表现、运行状态及瓶颈所在。

系统状态相关指标vllm:num_requests_running :当前在 GPU 上运行的请求数量。vllm:num_requests_waiting :等待处理的请求数量。vllm:lora_requests_info :LoRA 请求的相关统计信息,包括正在运行的 LoRA 适配器数量、最大 LoRA 数量和等待中的 LoRA 适配器数量。vllm:num_requests_swapped :被交换到 CPU 的请求数量。vllm:gpu_cache_usage_perc :GPU KV 缓存的使用率(1 表示 100% 使用)。vllm:cpu_cache_usage_perc :CPU KV 缓存的使用率(1 表示 100% 使用)。vllm:cpu_prefix_cache_hit_rate :CPU 前缀缓存的命中率。vllm:gpu_prefix_cache_hit_rate :GPU 前缀缓存的命中率。迭代统计相关指标vllm:iter_block_max :迭代时块的最大值。vllm:iter_block_total :迭代时块的总数。vllm:iter_block_avg :迭代时块的平均值。vllm:iter_block_stddev :迭代时块的标准差。请求统计相关指标延迟相关 :如 Time To First Token(TTFT,用户等待首个字符出现的时间),Time Per Output Token(TPOT,后续字符的生成速度),平均 / 最大延迟,分位数延迟(如 P99)等。模型执行时间 :模型执行的具体时间。Token 处理 :与 Token 处理相关的指标。请求参数 :如请求的大小、输入输出的 Token 数量等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值