算力调度
文章平均质量分 88
静谧之心
专业摩的佬
业余吉他手
退役喷子
拍照小法师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在 K8s 上可靠运行 PD 分离推理:RBG 的设计与实现
本文介绍了RBG(RoleBasedGroup),一个专为多角色推理服务设计的Kubernetes编排扩展,用于解决Prefill-Decode(PD)分离架构的生产级部署难题。PD架构将大模型推理拆分为计算密集的Prefill阶段和显存敏感的Decode阶段,但带来了启动顺序、服务发现、资源管理等挑战。RBG通过定义角色模板和依赖关系,实现精细化扩缩容、优雅生命周期管理、自动服务发现等功能,并与OME Operator分层协作,使模型部署更高效。RBG还提供故障恢复机制和生产实践建议,确保多角色服务稳定运原创 2025-10-09 20:57:39 · 1087 阅读 · 0 评论 -
分层架构下的跨层通信:接口抽象如何解决反向调用
本文探讨了分层架构中实现反向通知的接口解耦方法。通过"K8S错峰控制器"的三层架构示例,展示了ResourceManager→StrategyManager→Dispatcher的单向依赖链。为解决策略更新需反向通知Dispatcher的需求冲突,提出了"接口订阅"模式:在策略层定义ReloadNotifier接口,由调度层实现该接口并在初始化阶段注册,使下层通过接口适配上层的通知契约。这种设计既保持了分层架构的单向依赖原则,又实现了模块间的松耦合通信,有效提升了系统原创 2025-08-10 14:35:02 · 382 阅读 · 0 评论 -
PD分离与EP分离技术
在拥有Mixture of Experts (MoE) 架构的大型语言模型中,模型包含多个“专家”子网络。Expert Parallelism 是一种将这些不同的专家子网络分布到多个计算设备(例如GPU)上的并行计算技术。每个计算设备负责存储和运行模型中一部分的专家。当输入数据进入模型时,一个“门控网络”(gating network)会决定将哪些输入路由到哪些专家进行处理。只有被选中的专家会对特定的输入进行计算,最终它们的输出会被合并以产生最终结果。原创 2025-03-31 11:53:29 · 3551 阅读 · 0 评论 -
深入理解k8s中的容器存储接口(CSI)
Pod调度到节点后,AD控制器创建VolumeAttachment对象,External Attacher调用CSI插件挂接存储卷,完成后更新状态。:用户创建PVC,K8s根据PVC和StorageClass,让External Provisioner调用CSI插件创盘,之后创建PV并绑定PVC。:Kubelet发现使用CSI类型PV的Pod调度到本节点,等待VolumeAttachment状态就绪,调用CSI插件挂载。,而且存储插件特权高,存在安全隐患。CSI的出现,就是为了解决这些问题,把。原创 2025-02-05 15:40:34 · 1758 阅读 · 0 评论 -
开源 vGPU 方案 HAMi 解析
HAMi 全称为 Heterogeneous AI Computing Virtualization Middleware,是一个异构算力虚拟化平台。它最初源自第四范式的 k8s-vgpu-scheduler,如今不仅开源,还将核心的 vCUDA 库 libvgpu.so 开放出来。当前,HAMi 在 NVIDIA GPU 的 vGPU 方案方面表现出色,为我们提供了一种有效的 GPU 资源共享和切分解决方案。HAMi 提供了丰富的自定义配置选项,通过在安装过程中使用-set参数来修改。原创 2025-01-08 15:57:16 · 3241 阅读 · 0 评论
分享