- 博客(4)
- 收藏
- 关注
原创 [Infra] 高性能大语言模型推理框架 - vLLM、SGLang 调研
本文比较了两种主流大模型推理框架vLLM和SGLang的核心技术与性能差异。vLLM采用PagedAttention算法实现高效的KVcache管理,SGLang在vLLM基础上引入RadixAttention实现跨请求KVcache共享和CompressedFSM优化结构化输出。实验数据显示,SGLang在吞吐量和延迟方面表现更优(最高6.4倍吞吐提升),而vLLM则具有更好的兼容性和易用性。两种框架都支持多种并行策略和量化技术,但适用场景和优化侧重点有所不同。
2025-10-21 18:53:21
1443
原创 [Infra] 高性能强化学习训练框架 - verl(HybridFlow)调研
文章摘要:verl 是一个专为 LLM 设计的强化学习训练库,由字节跳动 Seed 团队开发。其核心创新 HybridFlow 框架通过混合单控制器与多控制器范式,解决了传统 RLHF 训练框架灵活性不足和效率低下的问题。主要技术包括:1) 分层 API 实现计算与数据依赖解耦;2) 3D-HybridEngine 实现零内存冗余的模型重分片;3) 自动设备映射算法优化硬件部署。实验表明,HybridFlow 相比现有框架可获得 1.53x~20.57x 的吞吐量提升,显著降低通信开销。verl 已开源。
2025-09-19 16:01:55
668
原创 MacOS 基于 Lima 配置 docker 环境
在 arm64 架构(M 系列芯片)的 MacOS 上,通过 Lima 搭建 ubuntu 虚拟机,支持拉取/构建/上传跨平台(主要是 x86_64 架构)docker 镜像。
2025-09-15 14:04:10
1650
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅