目录
1 概述
浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统,支持x86、ARM等主流架构处理器,性能和稳定性居于行业领先地位,具备成熟的 CentOS 迁移和替换能力,可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。详细介绍见官网链接https://www.ieisystem.com/kos/product-kos-xq.thtml?id=12126
vLLM是一种用于大规模语言模型(LLM)推理的框架,旨在提高模型的吞吐量和降低延迟。vLLM通过优化内存管理和调度策略,显著提升了模型在高并发场景下的性能。vLLM利用了一种名为PagedAttention的注意力机制,该机制借鉴了虚拟内存和分页技术,以减少缓存内存(KV Cache)的浪费,并允许在请求之间灵活共享KV缓存。这种设计使得vLLM在保持与现有系统相同延迟水平的情况下,能够将吞吐量提高2到4倍。官方网址:https://www.vllm.ai
vLLM提供了丰富的推理服务监控指标,便于推理服务运维人员快速了解推理服务系统性能表现、运行状态及瓶颈所在。
系统状态相关指标vllm:num_requests_running :当前在 GPU 上运行的请求数量。vllm:num_requests_waiting :等待处理的请求数量。vllm:lora_requests_info :LoRA 请求的相关统计信息,包括正在运行的 LoRA 适配器数量、最大 LoRA 数量和等待中的 LoRA 适配器数量。vllm:num_requests_swapped :被交换到 CPU 的请求数量。vllm:gpu_cache_usage_perc :GPU KV 缓存的使用率(1 表示 100% 使用)。vllm:cpu_cache_usage_perc :CPU KV 缓存的使用率(1 表示 100% 使用)。vllm:cpu_prefix_cache_hit_rate :CPU 前缀缓存的命中率。vllm:gpu_prefix_cache_hit_rate :GPU 前缀缓存的命中率。迭代统计相关指标vllm:iter_block_max :迭代时块的最大值。vllm:iter_block_total :迭代时块的总数。vllm:iter_block_avg :迭代时块的平均值。vllm:iter_block_stddev :迭代时块的标准差。请求统计相关指标延迟相关 :如 Time To First Token(TTFT,用户等待首个字符出现的时间),Time Per Output Token(TPOT,后续字符的生成速度),平均 / 最大延迟,分位数延迟(如 P99)等。模型执行时间 :模型执行的具体时间。Token 处理 :与 Token 处理相关的指标。请求参数 :如请求的大小、输入输出的 Token 数量等。

最低0.47元/天 解锁文章
712

被折叠的 条评论
为什么被折叠?



