zlt315-优快云博客

原创【纯干货】基于Prometheus+Grafana构建混合AI计算平台（HPC SLURM + K8s）统一监控与调度方案

本文提出了一套统一管理与监控混合AI计算环境（HPC SLURM集群与Kubernetes集群）的解决方案。通过整合Grafana、Prometheus等工具，构建了中心化可观测平台，实现SLURM作业、K8s资源和硬件健康状态的统一监控。方案采用动态资源调度策略，通过节点标签和污点机制自动调配计算资源，使GPU利用率提升40%以上。文章详细介绍了架构设计、关键组件部署步骤和配置示例，有效解决了异构环境下的资源孤岛、监控碎片化管理难题。

2025-09-24 21:00:00 658

原创【万字干货】一份完整的 DeepSeek AIOps 落地实施方案（含 K8s+vLLM 部署、RAG 核心代码、Ansible 自动化）

本文提供了一套完整、可落地的基于 DeepSeek 大模型的 AIOps 智能运维平台实施方案。内容涵盖技术架构设计、开源组件选型（vLLM、Milvus、Prometheus）、详细的 Kubernetes 部署脚本、RAG 知识库构建、日志和告警分析的核心 Python 代码示例，以及与 Ansible 的集成，旨在为希望在生产环境中实践 AIOps 的开发者和 SRE 工程师提供一份详尽的技术白皮书。

2025-09-12 20:00:00 458

原创【深度实践】从0到1万卡GPU集群：Slurm部署架构演进与落地详解

摘要：本文提出分阶段构建大规模AIGPU集群的方案，从百卡验证到万卡超算逐步演进。百卡阶段采用单体架构验证技术栈；千卡阶段实现高可用架构，升级InfiniBand网络和并行存储；万卡阶段采用Slurm联邦架构，部署分层存储和智能运维体系。文章详细阐述了各阶段的架构设计、硬件选型和Slurm配置要点，为构建可扩展的AI算力底座提供实践指南。

2025-09-02 06:50:36 1128

原创 [技术干货] Slurm vs. K8s全面对比及Ubuntu部署实践指南

摘要：本文深入对比了Slurm和Kubernetes在高性能计算和云原生领域的应用差异。通过架构分析、功能对比和实际案例，揭示了两者在作业调度、资源管理等方面的核心差异：Slurm优化批处理作业吞吐量，Kubernetes则擅长微服务编排。文章还提供了在Ubuntu 22.04/24.04 LTS上部署两种集群的详细步骤，包括Slurm的MUNGE认证配置和Kubernetes的kubeadm初始化流程，为技术选型提供实践指导。随着AI负载需求增长，二者融合方案将成为重要趋势。关键词： Slurm、Ku

2025-08-09 18:39:31 1478

原创【万字干货】搞懂 Kubernetes 核心关系：Node、Pod、Deployment、Service 全面解析 (Minikube 实战)

本文旨在帮助 Kubernetes 初学者彻底厘清 Node, Pod, Deployment, Service 和 Namespace 之间的核心关系。我们将通过一个生动的比喻作为引导，深入剖析每个概念的技术内涵，并结合清晰的关系图与 Minikube 实战代码，助您构建扎实的 K8s 知识体系。

2025-08-01 11:55:02 802

原创 K8s 实战：基于单 YAML 文件模板部署多环境（Dev/Test/Prod）高可用 NGINX 服务

本文详细介绍如何在Kubernetes集群中为开发、测试和生产环境部署自动扩缩容的NGINX服务。通过命名空间实现环境隔离，使用统一的YAML模板定义Deployment、Service和HorizontalPodAutoscaler(HPA)资源。重点解析了资源配置、HPA扩缩容阈值等关键配置项，并提供了完整的部署实施流程，包括命名空间创建、配置差异化修改和应用部署。最后通过负载测试验证了HPA的自动扩缩容功能，展示了这套方案如何实现高效、弹性的多环境管理。

2025-07-31 16:15:08 641

原创 K8s本地环境搭建超详细对比：Minikube、Kind、k3d、MicroK8s、Kubeadm 安装与实战指南

本文旨在为Kubernetes开发者和运维人员提供一份详尽的本地及生产环境部署工具选型指南。我们将通过实际的安装和使用命令，对比分析Minikube, Kind, k3d, MicroK8s和Kubeadm的优劣，助你快速搭建所需环境。

2025-07-20 23:39:04 1325

原创 ComfyUI 高显存任务优化：Windows系统下多 GPU 动态调度方案

本文针对48GB显存需求的ComfyUI工作流（如SDXL、Flux模型），在8张24GB GPU的Windows环境下提出三种优化方案。方案一结合ComfyUI_NetDist与WanVideoModelLoader，通过模型并行、CPU卸载和动态调度实现多GPU显存分配；方案二采用ComfyUI-MultiGPU插件简化配置；方案三通过全局参数统一管理显存。核心优化包括：低显存模式、注意力分割、FP8量化等，支持48GB任务运行。对比显示方案一扩展性最佳，方案二易用性突出，方案三适合简单场景。

2025-07-16 17:39:45 2127

原创 Ubuntu 24.04 搭建 Squid 代理服务器终极指南：从入门到 HTTPS 缓存AI模型

本文详细指导在Ubuntu 24.04系统部署Squid代理服务器，实现AI大模型文件的高效缓存。重点内容包括：1) 安装squid及必备的squid-openssl扩展包；2) 配置HTTPS拦截(SSL-Bumping)功能，创建CA证书和SSL数据库；3) 优化缓存策略，设置4TB存储空间并强制缓存常见大文件格式；4) 结合华为防火墙实现透明代理。文章特别强调实际部署中的关键注意事项和常见错误解决方案，如证书路径配置、权限设置等问题，帮助用户快速搭建企业级缓存代理服务。

2025-07-09 22:05:57 1476

原创办公网利器：从零搭建Squid缓存服务器，让软件、驱动下载快如闪电 (保姆级图文指南)

办公室多人重复下载大文件（如Windows更新、CUDA驱动）会占用出口带宽，导致网速变慢。本文介绍如何用Squid搭建缓存服务器，通过透明代理技术，让重复下载请求从内网获取，实现"一次下载，全员共享"。详细步骤包括：硬件准备（SSD硬盘是关键）、Ubuntu系统安装Squid、配置透明代理模式（设置缓存目录和优化规则）、网络流量重定向，以及验证效果（通过日志查看缓存命中情况）。此方案能显著提升下载速度，节省带宽，尤其适合开发/设计团队。

2025-07-07 14:39:42 1246

zlt315的博客