- 博客(33)
- 收藏
- 关注
原创 NVIDIA Container Toolkit
NVIDIA Container Toolkit是NVIDIA官方推出的工具链,旨在解决容器环境中GPU资源访问的复杂性问题。它通过标准化、自动化的方式,将GPU设备、驱动库和计算框架无缝集成到容器生态中,是构建GPU加速应用的基石。核心目标允许容器直接访问宿主机的GPU硬件资源(如物理GPU设备、显存、计算核心);自动注入容器所需的 NVIDIA 驱动库(如 CUDA Runtime、cuDNN、NCCL),无需手动挂载或预装。
2025-03-15 20:11:53
1891
原创 NVIDIA k8s-device-plugin源码分析与安装部署
在一文中,我们从源码层面了解了kubelet侧关于device plugin逻辑的实现逻辑,本文以nvidia管理GPU的开源github项目为例,来看看设备插件侧的实现示例。
2025-03-10 19:41:38
1561
原创 go模板自定义函数
嵌套template:define和template和自定义函数。使用define定义一个脚本模板,该模板中明文保存虚拟机启动脚本;支持定义的模板中使用变量,因此要先对自定义模板做一次解析;对解析出来的内容做base64加密,放到secret中。// data是模板变量对应的数据if err!= nil {},})return t// RenderTemplate解析模板。
2024-12-25 22:37:53
356
原创 GPU(三)nvidia-smi
通过前面的文章,我们对GPU和cuda有了初步的了解,并且说到可以用nvidia-smi命令来验证cuda和查看GPU信息,本文我们对该命令做个简单介绍。
2024-03-06 23:38:15
10005
2
原创 GPU(二)CUDA环境安装
CUDA是“Compute Unified Device Architecture”的缩写,意为统一计算设备架构,它是由NVIDIA公司2006年创建的一种并行计算平台和应用程序编程接口,允许开发者通过CUDA利用GPU的强大处理能力进行高性能的并行计算。CUDA支持C和C++等标准编程语言,以及OpenCL和DirectCompute等用于GPU计算的API。此外NVIDIA还提供了全套工具包,包括编译器、调试器、分析器、库等,以支持开发人员将CUDA架构应用于生产质量的产品。
2024-03-02 11:46:29
836
原创 kubernetes CSI(上)
随着应用容器化的趋势,越来越多的应用部署到了kubernetes平台,同时日益复杂的业务场景,也使得kubernetes需要支持越来越多类别的存储。kubernete对存储的支持,大致可以分为三个历程:in-treeflexVolumeCSIin-tree最开始kubernetes支持的存储逻辑代码都在kubernetes项目中的,跟着kubernetes组件一起编译和发版,这种模式叫作in-tree。in-tree模式有很多局限性,例如:kubernetes代码和存储代码放在一起,都是由
2022-05-22 15:31:03
791
1
原创 Dynamic Provisioning原理分析
static provisioning在kubernetes pod应用中如果有持久化数据的场景,一般会接触到pvc、pv和storageClass这些概念:pvc: 描述的是pod希望使用的持久化存储的属性pv: 描述的是具体的持久化存储数据卷信息storageClass: 创建pv的模板如果在实际中我们要用到nfs作为pod应用的持久化存储,一般会如下几个步骤:nfs server端创建一个目录创建pv,并配置nfs server和挂载路径创建pvc,并与上述pv绑定pod引用上
2022-05-15 12:49:47
964
原创 host-local源码分析
前言host-local是kubernetes官方一个IPAM(IP地址管理器)插件,一般用于单机pod IP管理,在flannel和calico中都能看到它的身影。源码地址:https://github.com/containernetworking/plugins/tree/main/plugins/ipam/host-local源码分析host-local和其它CNI插件类似,只需要实现cmdCheck、cmdAdd和cmdDel三个函数,这三个函数的入口都在main函数中:func main
2022-05-03 10:10:47
1155
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人