云逸001～-优快云博客

原创奖励模型POLAR微调教程

复现验证了 POLAR 论文中的设计思路和方法。

2025-07-30 13:07:31 970

原创 Distilabel DeepSeek-R1/Qwen3-4B 模型蒸馏实战

本文探讨了一条结合 distilabel 与 QLoRA 的前沿技术路径，旨在高效、低成本地构建领域专属大语言模型。distilabel 框架通过其自动化的数据处理流水线，巧妙地利用强力教师模型（DeepSeek-R1）的能力

2025-07-22 15:14:21 928

原创 Kubernetes 自定义Scheduler插件开发(入门实战)

本文介绍了Kubernetes 调度系统的内部机制，并成功构建、部署了一个自定义的 Scheduler 插件。然后采用nginx完整示例演示自定义Scheduler 插件如何发挥作用的

2025-07-04 16:13:05 941

原创 LangChain RAG 系统实战(Qwen3 Embedding&Reranker)

LangChain 框架，并结合了业界领先的 Qwen3 Embedding 和 Reranker 模型，构建了一个功能完善、性能RAG优异的知识库问答系统

2025-06-22 14:46:50 2648

原创 Kubernetes RDMA 概述与实战(大模型场景)

本篇主要介绍了 Kubernetes 使用 rdma 高速网络的介绍和实战。将高性能技术扩展到容器领域

2025-06-17 12:38:41 1819

原创 vLLM用2*(8 H800)部署DeepSeek-R1-0528-685B

通过 vLLM 并行策略部署满血版本的 DeepSeek-R1-0528 685B。硬件环境是 2*(8 H800)。实验全过程包含所有细节。可以直接复用部署命令和过程

2025-06-13 21:37:20 1955 4

原创 DeepSeek-R1-0528 推理模型文件拆解分析

以非人工智能科班，跨界研发人员的视角拆解分析 deepseek r1 的推理模型文件的层次结构，希望能从最小的计算机实体存在的方式认识推理模型为何物？通过直观的认识再去了解大模型相关

2025-06-06 12:49:31 1760

原创 LLM基础架构-硬件综述

整理了大语言模型对于硬件方面的诉求和硬件各个部件指标的梳理归纳总结。希望从硬件的各个参数指标对于不同场景下的大语言模型的影响。

2025-06-05 12:49:41 1213

原创 SGlang 推理模型优化(PD架构分离)

本文介绍了关于 PD 架构分离和 KV 多级缓存策略。并且提供了 SGLang 的 PD 分离部署示例。用来说明这样推理模型部署架构

2025-05-24 14:34:56 5006 3

原创 SGLang 实战介绍 (张量并行 / Qwen3 30B MoE 架构部署)

本文主要介绍了 SGLang 的基本特性以及核心概念。然后针对用三个示例，阐述 SGLang 的不同场景的用法。单机，分布式和 MoE 架构的模型部署等

2025-05-08 15:34:20 3159

原创 Koordinator 快速入门 (一)

本篇主要介绍了离线混部相关技术综述，然后对比了Koordinator 和 Volcano 在离线混部场景下的不同。整点聚焦在Koordinator 的介绍和实战示例

2025-05-01 10:50:27 1468

原创 Karmada 多 Kubernetes集群管理实战

本篇主要介绍了karmada 的基本概念应用场景和特性。然后使用三个k8s 集群，实验三种多集群调度策略。

2025-04-29 08:45:00 1828

原创 Volcano 进阶实战 (三) - (多集群 / 离线混部)调度

本篇主要介绍了 volcano 在多 Kubernetes 集群中的任务调度能力和混部场景在的调度策略相关教程

2025-04-28 17:53:38 1061

原创 Volcano 进阶实战 (二) - (网络拓扑/负载感知)调度

本篇详细介绍网络拓扑感知调度和负载感知重新调度策略。并利用 8 台节点的 Kubernetes 的环境模拟。网络拓扑结构调度。模拟高负载重新调度

2025-04-26 12:41:04 1789

原创 Volcano 实战快速入门 (一)

本文介绍了当前 Kubernetes 在大语言模型应用场景中的资源调度和管理面临的现状和挑战。简单介绍了 Volcano 的核心概念和组件功能。并提供了一些基础的任务示例

2025-04-24 23:54:16 2649

原创大模型(LLM)高性能网络综述(二) - 测试实验 NVMe-oF / NCCL / MPI

主要是补充了NVMe-oF,NCCL,MPI 三个组件的测试调试示例

2025-04-23 08:30:00 610 3

原创大模型(LLM)高性能网络综述(一)

针对对当前大模型训练和推理场景下，硬件网络，存储，内存，显卡的优化技术做了一个盘点综述。主要涉及(RDMA，InfiniBand，RoCE，NCCL，NVMe-oF )等

2025-04-23 00:03:29 1534

原创 Kubeflow 快速入门实战(三) - Qwen2.5 微调全流程

本篇将采用Qwen2.5 3b微调全流程在 Kubeflow跑一遍。然后用实战的方式介绍 Kubeflow的各个模块是怎么衔接和协作的。

2025-04-21 18:32:48 1219

原创 Kubeflow 快速入门实战(二) - Pipelines / Katib / KServer

承接前文博客 Kubeflow 快速入门实战(一)。补充Kubeflow pipelines ，katib，KServer，Training Operators (分布式训练)

2025-04-20 00:37:08 1772

原创 Kubeflow 快速入门实战(一) - 简介 / Notebooks

本文主要介绍了 Kubeflow 的主要功能和能力，适用场景，基本用法。以及Notebook，piplines，katib，KServer 的入门级示例

2025-04-19 12:31:49 1920 1

原创 Kubernetes GPU 资源调度与管理解析(Time-Slicing 和MIG)

主要介绍了 Kubernetes 对于 GPU 资源管理的策略和方法。并提供了共享 GPU 策略的示例。

2025-04-17 22:41:52 2160

原创大模型(LLM)基础Kubernetes环境构建

主要是介绍了 Kubernetes 云原生相关技术在，大模型研发流程里面应用。探讨云原生和大模型的关系。然后提供了一份单机版本的 Kubernetes 的搭建示例，调度 GPU 资源

2025-04-16 20:16:45 1314 3

原创 DeepSpeed-Inference 分布式推理模型部署(基础)

采用DeepSpeed-Inference 张量并行方式分布式部署 qwen2.5 7b 模型。并且验证整个流程

2025-04-15 17:58:11 1731

原创 vLLM & Ray 分布式推理模型部署

通过 vllm 和 ray 结合，使用 4 台 A10 显卡部署 qwen2.5 14b 全参数推理模型。实现分布式推理模型部署的方法。解决单机单卡显存不够，模型推理效率低等问题。

2025-04-14 19:20:48 4024

原创 DeepSpeed-Train 分布式模型训练(小白入门)

DeepSpeed 是一个基于 PyTorch 构建的深度学习优化库。它提供了一系列先进的技术，使得用户能够训练参数量高达数万亿的模型，并显著提升训练和推理的速度与效率。DeepSpeed 的核心目标是让大规模模型训练变得更加普惠和高效。

2025-04-12 01:32:42 1733

原创 Triton + TensorRT 推理模型部署

Triton Inference Server与TensorRT_LLM 结合实战，提高推理模型服务的吞吐量和效率

2025-04-10 14:28:31 2346

原创 Qwen2.5 7B 极简微调训练

实现 qwen 2.5 7b 模型微调实验，并打包好模型最后发布到 huggingface

2025-04-10 13:29:12 852 2

原创 Kubernetes Operator开发 (小白入门包懂包会)

本文介绍了Operator是什么有什么作用应用场景有哪些，也介绍了利用Kubebuild开源项目实现Operator完整的开发过程。希望对大家开发Operator有帮助

2024-09-04 00:04:53 4315 1

原创 Kubernetes HPA 自定义指标弹性伸缩-设计思路

限于篇幅等后续补充自定义指标配置的细节说明，也可以参考github prometheus-adapter仓库里面的说明。(文章开头helm包里面已经配置好了)

2024-08-30 16:43:35 2324

原创大数据-查询引擎(trino)-云原生化设计思路

大数据场景里面，针对Trino/Presto的云原生化方案的设计思路。利用容器化技术，解决解决了查询引擎扩展性不足的问题。

2024-08-28 12:33:40 2820 2

欢迎来到云逸的博客频道