
k8s专栏
文章平均质量分 84
gs80140
拥有丰富的大型系统架构设计及实现经验,曾参与12306后端内存并发计算架构设计及核心源码实现,在高并发、分布式系统优化领域具备深厚的技术积累。同时,参与美国强生大全球大数据平台建设,在数据治理、存储与计算框架设计方面有出色表现。近年来专注于人工智能应用开发,将技术创新与实际业务需求相结合,具备从算法研究到应用落地的全栈能力,致力于推动大数据和人工智能技术在行业场景中的深度融合和实践。
展开
-
使用 TFJob 进行分布式深度学习任务的多 GPU 协调指南
TFJob 是一个用于 Kubernetes 上运行 TensorFlow 训练任务的工具,由 Kubeflow 项目提供。TFJob 提供了一种资源编排方式,可以方便地在分布式集群中运行 TensorFlow 任务,支持 多副本、分布式训练 和 弹性伸缩。原创 2025-01-06 17:43:35 · 868 阅读 · 0 评论 -
JuiceFS 详解:一款为云原生设计的高性能分布式文件系统
JuiceFS 是一款高性能、云原生分布式文件系统,基于对象存储并支持多种元数据引擎,如 Redis、MySQL 等,具有强大的缓存机制和 POSIX 兼容性。它适用于大数据分析、容器化应用、机器学习等场景,提供高可靠性和低成本,支持跨平台文件共享,易于部署和扩展,性能表现优秀。原创 2025-01-06 15:45:10 · 1731 阅读 · 0 评论 -
用CRD定义未来:解锁机器学习平台的无限可能
本文介绍了 Kubernetes 自定义资源定义(CRD)在机器学习平台中的应用,通过 CRD 扩展 Kubernetes API,可以高效管理如 TensorFlowJob、PyTorchJob 等分布式训练任务。文章详细解析了 CRD 的组成结构及使用示例,包括 `apiVersion`、`kind`、`metadata` 和 `spec` 等关键字段,并展示了创建与验证自定义资源的完整流程。CRD 结合 Operator,可实现自动化任务调度、资源管理与事件驱动,有助于提升机器学习任务的部署和运维效率原创 2025-01-06 15:26:40 · 837 阅读 · 0 评论 -
Kubernetes 使用私有镜像库配置 crictl 镜像源
通过修改containerd配置,可以完成 Kubernetes 环境下crictl的私有镜像库配置。如果镜像不存在,可以通过手动提交或配置镜像代理来解决。将上进的步骤举行完成,即可使 Kubernetes 在私有环境下正常拉取镜像。原创 2024-12-31 17:36:56 · 1611 阅读 · 0 评论 -
如何自定义 Kubernetes KubeSphere 默认 Logo:详细实现方案
在 KubeSphere 中,默认 Logo 位于路径 /opt/kubesphere/console/dist/assets/logo.svg,可以通过多种方法将其替换为自定义 Logo。推荐的最佳实践是使用 Kubernetes 的 ConfigMap,将自定义 Logo 文件挂载到目标路径。这种方法不仅安全可靠,还具有良好的可维护性。此外,还可以使用 PersistentVolume 和 PersistentVolumeClaim,将外部存储中的 Logo 文件动态挂载到 Pod。原创 2024-12-30 17:24:37 · 314 阅读 · 0 评论 -
全面解析 Kubernetes 流量负载均衡:iptables 与 IPVS 模式
Kubernetes 提供两种流量负载均衡模式:iptables 和 IPVS。iptables 模式基于 Linux Netfilter,规则简单,开箱即用,但性能在大规模集群中可能受限。IPVS 模式则基于内核实现,支持多种负载均衡算法(如轮询、加权轮询、最少连接),性能更高,适合高并发环境。两种模式各有优缺点:iptables 适合小型集群,IPVS 适合性能要求高的大规模集群。本文详细介绍了两种模式的工作原理、优劣对比及如何切换,帮助您根据需求选择最优方案。原创 2024-12-19 14:25:44 · 1115 阅读 · 0 评论 -
深入解析 NFS:结合 Kubernetes 实现高效文件共享
NFS(Network File System)是一种分布式文件共享协议,支持多客户端透明访问远程存储。结合 Kubernetes,NFS 可用于跨节点的共享存储,满足应用日志、配置文件共享等需求。通过配置 PersistentVolume (PV) 和 PersistentVolumeClaim (PVC),实现 Pod 对共享文件的统一访问。NFS 轻量易用,适合局域网和中小型集群场景,但需注意性能瓶颈和安全优化,如访问限制、防火墙保护等。原创 2024-12-19 14:16:24 · 920 阅读 · 0 评论 -
NVIDIA Container Toolkit 介绍及安装
是 NVIDIA 提供的一组工具,用于在容器化环境中支持 GPU 加速,特别是通过 Docker 或其他容器运行时,运行基于 NVIDIA GPU 的工作负载(如深度学习、科学计算等)。原创 2024-12-19 13:56:23 · 3216 阅读 · 0 评论 -
容器化技术全面解析:Docker 与 Containerd 的深入解读
Docker 是一个完整的容器管理平台,提供镜像、容器、网络和存储管理,适合开发全流程;Containerd 是专注于容器生命周期管理的运行时工具,符合 OCI 标准,适合 Kubernetes 等云原生环境。两者协作构建高效容器化生态。原创 2024-12-19 13:53:59 · 1762 阅读 · 0 评论