自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 vllm基准测试——benchmark_serving实践步骤

vLLM服务性能基准测试说明记录。

2025-07-25 13:45:41 944

原创 Lmcache+vllm——KVcache卸载CPU/SSD探索

目前查看了vllm、Nvidia dynamo、mooncake都没有找到将kvcache卸载到SSD的方法,幸好lmcache支持。以下进行lmcache+vllm实践,对比将kvcache分别卸载到CPU-ram和SSD上的TTFT性能差异。目前的query只是单并发,对比的效果已经比较明显了,可能多并发下对存储的要求就会更高了。

2025-07-23 14:45:28 486 1

原创 NVIDIA RAG 蓝图实践——从‘0’部署NemoRetriever+milvus+llama

目前RAG本地化的需求越来越常见,但在实际操作中,部署流程与常见问题困扰着不少开发者,部署NVIDIA蓝图是一个易行的方案,本文将详细阐述从零开始搭建基于NVIDIA蓝图的RAG流程的优秀实践。

2025-07-08 15:22:00 560

原创 NVIDIA Dynamo初体验(二)—— vllm部署之aggregate&disaggregate

作为AI小白,初体验dynamo之后,想要继续探索dynamo工具,对dynamo在RAG架构的优化有个初步理解,再探索dynamo两种部署方式,计算它们之间的性能差异。

2025-07-04 18:55:03 614

原创 NVIDIA Dynamo初体验

dynamo支持多级存储管理、kvcache,现在各个存储厂商近期适配宣传适配类似dynamo的技术,所以什么是dynamo,以及如何get started?本文涵盖Dynamo架构、安装、基础运行、分布式服务和开发流程,实践内容来自于dynamo官方github文档。

2025-07-01 20:28:23 463

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除