浅羽折鸢-优快云博客

原创 [Infra] 高性能大语言模型推理框架 - vLLM、SGLang 调研

本文比较了两种主流大模型推理框架vLLM和SGLang的核心技术与性能差异。vLLM采用PagedAttention算法实现高效的KVcache管理，SGLang在vLLM基础上引入RadixAttention实现跨请求KVcache共享和CompressedFSM优化结构化输出。实验数据显示，SGLang在吞吐量和延迟方面表现更优（最高6.4倍吞吐提升），而vLLM则具有更好的兼容性和易用性。两种框架都支持多种并行策略和量化技术，但适用场景和优化侧重点有所不同。

2025-10-21 18:53:21 1443

原创 [Infra] 高性能强化学习训练框架 - verl（HybridFlow）调研

文章摘要：verl 是一个专为 LLM 设计的强化学习训练库，由字节跳动 Seed 团队开发。其核心创新 HybridFlow 框架通过混合单控制器与多控制器范式，解决了传统 RLHF 训练框架灵活性不足和效率低下的问题。主要技术包括：1) 分层 API 实现计算与数据依赖解耦；2) 3D-HybridEngine 实现零内存冗余的模型重分片；3) 自动设备映射算法优化硬件部署。实验表明，HybridFlow 相比现有框架可获得 1.53x~20.57x 的吞吐量提升，显著降低通信开销。verl 已开源。

2025-09-19 16:01:55 668

原创 MacOS 基于 Lima 配置 docker 环境

在 arm64 架构（M 系列芯片）的 MacOS 上，通过 Lima 搭建 ubuntu 虚拟机，支持拉取/构建/上传跨平台（主要是 x86_64 架构）docker 镜像。

2025-09-15 14:04:10 1650

原创 Ubuntu 24.04 配置 NVIDIA 官方 docker 镜像

【代码】Ubuntu 24.04 配置 NVIDIA 官方镜像。

2025-08-27 04:08:56 1944

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人