探索云原生-优快云博客

原创 HAMi vGPU 原理分析 Part4：Spread&Binpack 高级调度策略实现

本文分析了HAMi调度器(v2.4.0)中Spread和Binpack高级调度策略的实现原理。HAMi通过节点调度策略(nodeSchedulerPolicy)和GPU调度策略(gpuSchedulerPolicy)两个维度控制资源分配方式。节点调度策略支持binpack(尽量集中)和spread(尽量分散)两种模式，通过helm部署时配置。核心调度逻辑在Filter接口中实现，包括资源需求计算、节点使用情况分析、以及基于策略的评分机制。HAMi采用k8s扩展调度器模式，通过webhook修改Pod调度器名

2025-09-09 12:24:46 682

原创 HAMi vGPU 原理分析 Part3：hami-scheduler 工作流程分析

本文分析了HAMi中的hami-scheduler工作流程。hami-scheduler通过Scheduler Extender方式实现自定义调度逻辑，主要包含以下关键点：1）Webhook将申请vGPU资源的Pod调度器改为hami-scheduler；2）hami-scheduler使用原生kube-scheduler镜像并配置Extender插件；3）Extender服务实现核心调度逻辑，包括资源计算和节点选择；4）异步任务负责GPU资源感知和节点Annotations更新。调度器支持spread和b

2025-07-31 09:26:49 888

原创 HAMi vGPU 原理分析 Part2：hami-webhook 原理分析

HAMi Scheduler原理分析：Webhook机制本文是HAMi原理分析系列的第二篇，重点解析hami-scheduler的实现机制。HAMi通过自定义调度器hami-scheduler实现vGPU资源调度，并支持spread和binpack等高级调度策略。核心内容： Webhook机制：HAMi通过MutatingWebhook自动修改Pod的调度器名称，确保使用vGPU的Pod由hami-scheduler调度组件架构：hami-scheduler包含两个组件：hami-webhook（处理

2025-07-24 13:37:13 1123

原创 K8s 自定义调度器 Part1：通过 Scheduler Extender 实现自定义调度逻辑

摘要：本文介绍了如何通过Scheduler Extender扩展Kubernetes调度器实现自定义调度策略。K8s默认调度器通过spec.schedulerName支持多调度器，自定义调度逻辑可满足GPU分配、资源均衡、地理调度等特殊需求。扩展方法主要包括：1）基于调度框架开发新调度器；2）通过Scheduler Extender以HTTP服务扩展原调度器。后者通过配置KubeSchedulerConfiguration的extenders字段，实现零侵入式扩展，支持filter、prioritize和b

2025-07-16 13:49:41 1104

原创开源 vGPU 方案 HAMi 原理分析 Part1：hami-device-plugin-nvidia 实现

本文分析了开源vGPU方案HAMi中的设备插件hami-device-plugin-nvidia实现原理。作为系列第一篇，重点解读了该插件的核心功能：与NVIDIA原生device-plugin不同，HAMi自定义实现是为了支持vGPU细粒度切分。文章从程序入口开始，介绍了基于CLI的启动命令配置，并指出分析device-plugin需要关注的三个关键环节：Register注册逻辑、ListAndWatch设备感知机制以及Allocate分配策略。后续将深入这些核心模块的实现细节，揭示HAMi如何通过定制设

2025-07-09 09:33:54 914

原创开源 vGPU 方案 HAMi: core&memory 隔离测试

本文测试了开源vGPU方案HAMi的GPU核心与显存隔离功能。测试环境采用A40 GPU、K8s v1.23.17和HAMi v2.3.13，通过PyTorch的imagenet训练脚本验证隔离效果。测试结果显示：核心隔离：Pod实际使用的算力围绕设定值波动，但长期平均值与申请的gpucores基本一致；显存隔离：当Pod申请超过设定的GPU显存时，会直接触发CUDA OOM错误。测试方法是通过配置不同算力比例（30%和60%）的vGPU Pod，观察训练任务耗时变化。需注意需设置环境变量GPU_C

2025-07-04 09:16:32 956

原创 K8s v1.31 新特性：ImageVolume，允许将镜像作为 Volume 进行挂载

Kubernetes 1.31 引入了 ImageVolume 新特性（Alpha阶段），允许将OCI镜像直接挂载为Volume，从而加速AI/ML场景中的模型权重等工件分发。该功能解决了传统PVC存储跨命名空间重复下载大模型的问题，提升效率。使用前需部署Kubernetes 1.31集群并启用ImageVolume特性门控，目前仅CRI-O运行时支持。通过简单的YAML配置即可将镜像挂载到Pod中访问文件内容，为AI工作负载提供了更灵活的存储方案。

2025-06-18 13:17:45 424

原创开源 vGPU 方案：HAMi,实现细粒度 GPU 切分

本文介绍了一种开源的GPU虚拟化方案HAMi(Heterogeneous AI Computing Virtualization Middleware)。相比于传统的TimeSlicing方案，HAMi不仅支持GPU共享，还能对GPU核心和显存进行细粒度隔离与限制(1%级别)，确保各Pod获得相应资源。HAMi采用vCUDA方案，通过拦截CUDA/NVML API实现资源控制，当Pod使用超过申请量时会直接返回OOM。文章详细说明了HAMi的安装流程，包括先部署GPU Operator，再通过Helm添加r

2025-06-06 12:30:14 2587

原创一文搞懂 GPU 共享方案： NVIDIA Time Slicing

本文介绍了GPU共享方案，特别是NVIDIA的Time Slicing技术，旨在通过超额订阅（oversubscription）实现多个Pod共享同一物理GPU，从而提升资源利用率。文章详细阐述了Time Slicing的配置步骤，包括创建Time Slicing配置、修改集群策略以启用Time Slicing，以及可选地为不同节点打上标签以应用不同策略。通过这种方式，可以在Kubernetes环境中实现GPU资源的共享，避免资源浪费。尽管Time Slicing方案存在内存和故障隔离的不足，但其简单易用的

2025-05-13 12:18:11 922

空空如也

空空如也