- 博客(5)
- 收藏
- 关注
原创 Lmcache+vllm——KVcache卸载CPU/SSD探索
目前查看了vllm、Nvidia dynamo、mooncake都没有找到将kvcache卸载到SSD的方法,幸好lmcache支持。以下进行lmcache+vllm实践,对比将kvcache分别卸载到CPU-ram和SSD上的TTFT性能差异。目前的query只是单并发,对比的效果已经比较明显了,可能多并发下对存储的要求就会更高了。
2025-07-23 14:45:28
486
1
原创 NVIDIA RAG 蓝图实践——从‘0’部署NemoRetriever+milvus+llama
目前RAG本地化的需求越来越常见,但在实际操作中,部署流程与常见问题困扰着不少开发者,部署NVIDIA蓝图是一个易行的方案,本文将详细阐述从零开始搭建基于NVIDIA蓝图的RAG流程的优秀实践。
2025-07-08 15:22:00
560
原创 NVIDIA Dynamo初体验(二)—— vllm部署之aggregate&disaggregate
作为AI小白,初体验dynamo之后,想要继续探索dynamo工具,对dynamo在RAG架构的优化有个初步理解,再探索dynamo两种部署方式,计算它们之间的性能差异。
2025-07-04 18:55:03
614
原创 NVIDIA Dynamo初体验
dynamo支持多级存储管理、kvcache,现在各个存储厂商近期适配宣传适配类似dynamo的技术,所以什么是dynamo,以及如何get started?本文涵盖Dynamo架构、安装、基础运行、分布式服务和开发流程,实践内容来自于dynamo官方github文档。
2025-07-01 20:28:23
463
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人