百度智能云技术站-优快云博客

原创 DeepSeek-V3.2 128K 推理秒开？百度百舸开源 CP 上下文并行方案

随着大语言模型（LLM）长上下文推理需求飙升至 128K Tokens，首字延迟（TTFT）和显存压力已成为制约工业化落地的核心瓶颈。在处理数万字的法律合同或长篇技术手册时，过高的 TTFT 往往让用户面临漫长的等待。

2025-12-25 16:41:49 433

原创百度百舸面向 DeepSeek V3 系列模型 AE 分离框架的实战

在解决存储容量问题的基础上，ESS 系统进一步优化计算性能损耗，形成差异化竞争优势：相较于业界主流卸载方案，ESS 无需对数据进行压缩处理，实现端到端精度无损的卸载模式，彻底规避了数据压缩与解压带来的精度损失及额外计算开销。第一，面向负载均衡的切分策略。此外，在缓存替换策略上，我们采用全局 LRU 算法替代传统 FIFO 策略，通过动态追踪数据访问热度、优先保留高频访问的热数据，确保在模型全生命周期内 Cache Miss 率维持在最低水平，在局部数据场景中，Cache 命中率最高可进一步提升 10%。

2025-12-17 19:56:07 856

原创针对 DeepSeek V3.2 的推理引擎深度优化

在解决存储容量问题的基础上，ESS 系统进一步优化计算性能损耗，形成差异化竞争优势：相较于业界主流卸载方案，ESS 无需对数据进行压缩处理，实现端到端精度无损的卸载模式，彻底规避了数据压缩与解压带来的精度损失及额外计算开销。第一，面向负载均衡的切分策略。此外，在缓存替换策略上，我们采用全局 LRU 算法替代传统 FIFO 策略，通过动态追踪数据访问热度、优先保留高频访问的热数据，确保在模型全生命周期内 Cache Miss 率维持在最低水平，在局部数据场景中，Cache 命中率最高可进一步提升 10%。

2025-12-16 14:44:13 895

原创百度百舸打造大规模分布式推理集群的基础设施

百度百舸通过自动化编排、智能弹性伸缩与高性能流量调度这三大支柱，成功重塑了 LLM 分布式并行推理基础设施。这套体系并非三个独立技术的简单叠加，而是一个从底层抽象到顶层智能决策、层层递进、协同工作的完整架构。其整体架构蓝图可以归纳为四个协同工作的层次：工作负载抽象层（Foundation Layer）：这是整个系统的基石。通过 FedInstance 这一核心抽象，将物理上分散的多个 Pod 封装为逻辑上统一的原子化多机工作负载。

2025-12-16 11:24:28 824

原创提升超长上下文本推理吞吐，百度百舸 ESS 技术报告新鲜奉上

【问题】长文本推理被「显存墙」卡住在 32K 至 128K 超长上下文场景中，DeepSeek-V3.2-Exp 的 Decode 阶段需维护一个随序列长度线性增长的 Latent Cache。更多详细内容，请阅读 ESS 技术报告全文：https://arxiv.org/abs/2512.10576。挑战：Latent Cache 仅 656 字节、访问离散，传统拷贝带宽 <1 GB/s。- Prefill 阶段末尾 Top-K 条目预热缓存（LRU-Warmup）

2025-12-12 16:08:14 211

原创百度百舸 X 昆仑芯 | 开源 vLLM-Kunlun Plugin，快速适配新模型、跑出极致性能

为解决国产芯片部署开源大模型的效率与性能瓶颈，百度百舸联合昆仑芯正式推出 vLLM-Kunlun Plugin —— 一款面向百度昆仑芯 XPU 的高性能 vLLM 平台插件，该 Plugin 现已全面开源。同时，项目同步开放了配套工具链，包括用于算子精度验证的与支持性能剖析的，助力开发者高效完成模型迁移、调试与优化。欢迎访问以下地址获取资源：torch_xray。

2025-12-11 15:58:08 892 1

原创超节点选型：跳出性能迷局，聚焦稳定与落地价值

在超节点这一创新算力形态的早期发展阶段，企业部署超节点时，不能唯性能论，否则极易陷入「高性能却难落地」的困境。唯有跳出性能迷局，聚焦超节点与业务场景的贴合度、与现有基础设施的兼容性，从性能转化、稳定性、可落地性多维度综合考量，才能让超节点真正落地，让高性能算力平稳转化为可持续的业务价值。

2025-12-03 16:38:17 747

原创一次快速响应的开源协作，让 DeepSeek-V3.2-Exp 性能满血回归

部署 DeepSeek-V3.2-Exp 时，百度百舸团队发现其长上下文性能明显低于官方报告。经排查，问题源于官方开源的 Inference Demo 中 RoPE 排布方式的一处细微错配。修正后，DeepSeek-V3.2-Exp 性能完全恢复。本文完整记录了该问题从发现、验证与协同 DeepSeek 官方修复的全过程。

2025-12-01 14:47:04 680

原创面向复杂生产场景的 Token 双流：百度百舸开源贡献至 SGLang 社区

相比传统的 Two-Batch Overlap，Token 双流（Two-Chunk Overlap）通过 token 级细粒度划分，在请求长度高度异构的真实业务场景中显著提升了计算和通信 overlap 效率与 GPU 利用率，同时严格保证推理结果正确性，无精度损失。在百度百舸线上真实业务中（约束首 token 延迟 TTFT < 1 秒），单机吞吐最高提升达 30%。在 25 年 8 月百度百舸将 Token 双流核心代码正式贡献至 SGLang 开源社区。

2025-11-19 14:26:12 1005

原创让存储迈入百万 IOPS 时代，百度智能云用户态网络协议栈 Polar 全景解读

回顾网络技术的发展，我们能清晰地看到一条主线：硬件的性能潜力，必须由与之匹配的软件栈来释放。今天的云数据中心，拥有着多核处理器、高速网卡和先进的内存架构，硬件层面早已为百万级 IOPS 和微秒级延迟的应用场景做好了准备。然而，以通用性为主要设计目标的传统内核协议栈，其固有的长链路、多拷贝和锁竞争等问题，成为了释放硬件潜能的封印。面对日益分化的云原生工作负载，我们不再需要万金油式的通用产品，而是需要为特定场景打造的手术刀。

2025-11-10 16:10:02 902

原创百度智能云 X 十字路口 | 对谈王雁鹏：亲述从大数据时代到 3 万卡集群的中国算力演进史

在 AI 的下半场，算法的创新固然重要，但算力好像正在成为终极的变量，AI 的军备竞赛，已经从代码和模型，延伸到了芯片、电力和数据中心这些更底层的物理世界。近期，百度智能云与十字路口推出联合播客，在节目上，百度智能云 AI 计算首席科学家王雁鹏与十字路口主播 Koji 杨远骋展开一场深度对谈，亲述从大数据时代开始的中国互联网基础设施演进。本期播客对谈原文约 22000 字，本文经过删减整理后约 9000 字。Koji：您的职业生涯很像中国互联网基础设施的演进史，可以从亲历角度讲讲互联网基础设施的主要阶段和关

2025-11-10 14:23:11 1162

原创基于 veRL 多模态混训的视频上下文并行，百度百舸提升具身智能强化学习效能

在客户场景的实际测试中，相比社区原有方案，百度百舸的方案经过合理的切分配置，单段视频支持的帧数上限提升超过 2 倍，单帧最大分辨率上限提升超过 2.6 倍，可以大幅缩短训练时间。在客户场景的实际测试中，相比社区原有方案，百度百舸的方案经过合理的切分配置，单段视频支持的帧数上限提升超过 2 倍，单帧最大分辨率上限提升超过 2.6 倍，可以大幅缩短训练时间。然而受限于显存瓶颈，多模态大模型的训练原始数据常被迫采用「低分辨率、低帧率采样」的折中方案，难以支撑真正意义上的长上下文训练，需要花费更多的时间进行训练。

2025-11-04 16:55:04 553

原创昆仑芯 X HAMi X 百度智能云 | 昆仑芯 P800 XPU/vXPU 双模式算力调度方案落地

百度智能云混合云联合昆仑芯、HAMi（密瓜智能发起并主导的 CNCF 开源项目），正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地，为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源，让国产算力既高效匹配业务需求，又实现资源的最大化利用。

2025-11-03 14:25:57 1064

原创百度亮相 SREcon25：搜索稳定背后的秘密，微服务雪崩故障防范

历经体系化治理，百度搜索已实现大规模微服务体系的稳定性跃升。通过微观机制改造、预案建设并经生产环境验证，百度在过去多个季度中消除了系统雪崩事件。本次 SREcon25 的主题分享，不仅展现了团队在微服务可靠性与韧性架构领域的系统化研究成果，也向国际同行展示了百度工程团队在大规模系统稳定性治理上的深厚积累与方法论创新。未来，运维部与搜索架构部将继续深耕自治运维、稳定性建模与智能化自愈机制的研究，携手全球 SRE 社区，共同推动可靠性工程从经验驱动走向科学驱动，为 AI 时代的基础设施稳定性奠定坚实基石。

2025-10-29 18:21:40 1005

原创百度百舸 X SGLang 社区 | 开源生产级 MTP 代码，助力 DeepSeek-V3.2 推理服务 2 倍以上吞吐提升

同时，这一架构升级为推理优化带来了新的挑战，同时也创造了性能突破的新机遇。SGLang 社区实测表明，该代码为最新的 DeepSeek-V3.2 模型带来了超过 2 倍解码吞吐量的显著性能提升，让社区能够。这一生产级的代码贡献，使得 SGLang 社区开发者无需重复底层探索与试错，能够直接获得性能倍增且稳定可靠的推理能力。MTP 通过让模型在单个前向传播中一次性预测多个未来 token，然后统一验证的方式，显著减少了生成完整序列所需的总步骤数。，与全球开发者携手，加速大模型技术的创新与普惠。

2025-10-28 11:24:20 378

原创本地盘的价格，云磁盘的弹性：百度智能云弹性临时盘来了

我们知道，用户选择物理本地盘，不仅因为价格，更因为其卓越的性能。高效数据管理：支持秒级快照、克隆、回滚，大幅缩短数据分发时间 —— 基于快照克隆，可快速分发 AI 镜像或构建环境，省去自建分发系统的复杂性。百度智能云弹性临时盘，不做无谓的冗余，不收多余的费用，也不牺牲灵活性。它的出现，不是为了成为另一个昂贵的云磁盘，而是要为那些不需要底层高可靠保护的场景，提供一个比物理本地盘更优的解决方案。它们都不该为底层的多副本支付溢价，但现实是，企业往往只能在「贵得肉疼」的云磁盘和「绑得太死」的本地盘之间二选一。

2025-10-28 11:08:00 688

原创全球首个超声多模态大模型！百度百舸支撑海豚智能实现高效训练与稳定服务

在百度百舸 · AI 计算平台的全方位支持下，Dolphin V1.0 成功上线。Dolphin V1.0 在胎儿标准切面识别上的准确率超过 90%，在乳腺病灶分型任务中准确率达到 86%。与上一代仅能执行单任务的专用模型相比，Dolphin 实现了“一模多能”的通用能力，模型复用效率显著提升。未来，海豚智能将不断深化与百度智能云的合作，基于百舸平台全周期的 AI 工程支持，持续训练、提升模型能力。

2025-10-22 15:41:22 961

原创 128 卡 4 天时间！百度百舸助力 LLaVA-OneVision-1.5 刷新多模态大模型训练效率纪录

在过去，训练一款高性能视觉大模型，往往需要承担高昂成本与复杂工程压力。9 月底，灵感实验室与 LMMs-Lab 联合推出的 LLaVA-OneVision-1.5 彻底改写了这一现状。这款具备视觉理解、图文对话能力的 8B 规模多模态模型，仅用 128 张 A800 GPU 4 天时间便完成预训练，且在公开基准测试中性能媲美顶级大模型，印证了「非堆量式」性能提升的技术价值。

2025-10-20 14:15:18 588

原创高性能智算网关打通 GPU 集群与 AI 存储高速链路，硬件成本直降 95%

在企业级智算需求持续爆发的当下，能否平衡「高性能通信」与「低成本建设」，已成为企业在 AI 竞争中建立优势的关键。高性能智算网关通过「复用现有 VPC + 硬件转发卸载」的创新思路，将智算场景流量特征深度融入技术架构，既解决了计算 - 存储跨区通信的性能瓶颈，又实现了成本的量级化降低。

2025-10-16 11:05:46 516

原创入选 SOSP‘25：百度智能云对象存储的分布式层级 Namespace 破解业界难题，彻底扫清 AI 时代大数据上云障碍

正因为如此，业界一直缺乏一种既能发挥对象存储成本与扩展性优势，同时又能媲美 HDFS 性能的真正可扩展、高性能的层级命名空间解决方案，导致「对象存储成为数据湖存储底座」的愿景，在实际落地中屡屡受阻。Mantle 创新性地将传统文件系统的强大语义优势，与新型对象存储的低成本、可扩展、云原生易运维特性完美融合，实现了革命性的突破，为 EB 级别的新一代数据湖打开了前所未有的想象空间。此次入选 SOSP'25 的论文，所阐述的正是这套兼具扩展性与卓越性能的方案，它标志着对象存储真正成为云原生数据湖的坚实底座。

2025-09-22 16:23:17 1050

原创从容应对极端挑战：从单机房到两地三中心的高可用架构设计与实践

真正的高可用，不只是能抗住今天的挑战，更是保障企业未来每一次演进都能从容前行。百度智能云混合云 ABC Stack 高可用方案，从平台建设初期就采用统一架构，帮助客户轻松完成高可用升级 —— 从单机房到同城双活，再到两地三中心，全程无需重构拓扑、不中断核心业务，按需扩展即可，让高可用升级不再是难题。我们已成功帮助金融、汽车、能源等众多行业客户，平稳实现高可用体系的迭代。无论您正搭建首套私有云，还是计划向「两地三中心」架构进阶，百度智能云都能提供匹配业务发展阶段的高可用方案。

2025-09-19 10:54:52 766

原创百度百舸第一时间支持 π0.5 模型微调，助力具身智能企业抢占研发先机

百度智能云致力于成为具身智能企业加速大模型落地的关键支撑，为具身智能研发打造全栈加速方案。全栈工具链：作为国内首家全面适配 RDT、π0、 π0.5、GR00T N1.5 等主流开源 VLA 模型的云平台，提供开箱即用的预置训练模版、高质量仿真数据集及数据转换工具，大幅降低技术探索门槛，让开发者能快速启动训练与验证。百度智能云紧密跟踪行业最新动态，在开源消息发布的第一时间，百度百舸 AI 计算平台就完成了支持 π0.5 模型快速微调的训练模版上线，成为国内首家提供该能力的 AI 计算平台。

2025-09-10 19:24:20 321

原创超大规模 AI 基础设施建设实践，极致释放算力效能

训练方面，得益于过往在 GPU 上对模型加速经验的大量积累，我们快速在国产芯上建立了全套优化体系，并面向 MoE 场景进行了新的优化，包括任务调度的易用性、并行策略、计算、显存、通信等不同维度的优化方向，贯穿产品、框架、编译器、算子、系统软件层面的整个 AI Infra 软件栈。大家下午好，今天我将基于百度智能云在基础设施等方面的技术能力，以混合云的业务实践为案例，向大家描述我们在建设诸如 3.2 万卡全国产智算集群这样的超大规模集群时，都面临了哪些挑战，以及在此期间我们做了怎样的探索，去解决这些问题。

2025-09-09 14:15:42 964

原创 AI 云再进化，百度智能云新技术与产品全景解读

从 2024 年 DeepSeek 等模型的爆发开始，整个大模型技术也实现了范式的升级，从稠密模型演化到了稀疏的 MoE 模型，专家数量从早期的 8 个逐步扩展到 256 个甚至更多。在人工智能这一核心场景下，我们聚焦于 AI 训推优化，力求在实例形态和功能上实现极致的性能、丰富的自运维诊断能力，并保障模型的安全。对于企业级应用，我们实现了「计算优化」与「高性能 I/O」系列的全面增强，支持 I/O 突增和弹性临时盘，其性能堪比本地盘，满足了在线计算和微服务的突发需求。，我们的目标非常明确：追求极致性能。

2025-09-08 14:59:04 1147

原创 AI 基础设施新范式，百度百舸 5.0 技术深度解析

而 MoE 的逻辑是：仅激活部分专家层参与计算，在参数量翻倍的同时，计算量基本不变。我们为了算子的计算效率推动了更极致的分离，在引擎层面实施自适应的并行策略，在系统层面实现 DP 和 EP 的负载均衡，在 KV Cache 层面最大化用存储换计算的效益。百度百舸 5.0 以 MoE 模型为核心，重构 AI 计算的基础设施 —— 从训练场景的 FP8 量化、分布式并行策略，到推理场景的分离式架构、负载均衡调度，再到硬件端的昆仑芯协同，每一步优化都紧扣混合负载的实际需求。作为线上系统，低延迟至关重要。

2025-09-05 11:33:44 1229

原创百度智能云「智能集锦」自动生成短剧解说，三步实现专业级素材生产

备受剪辑压力困扰的各位自媒体老板、MCN 同学们、投放平台大佬们，解放双手和大脑的好机会它来了！在这个数字化飞速发展的时代，智能技术正以前所未有的速度改变着我们的生活与工作方式。百度智能云，作为智能科技的引领者，持续探索智能技术如何赋能各行各业，开启智能时代的新篇章，开启「 AI 集锦」智能新纪元。

2025-09-03 18:41:22 1868

原创 AI 云驱动产业智能化跃迁

8 月 28 日沈抖博士的《智能，生成无限可能》主题演讲为我们分享了智能体经济的崛起，发布了新一代 AI 云基础设施，包括百舸 5.0、千帆 4.0 等新产品，也介绍了 AI Agents 在千行百业成功落地的案例，相信大家对我们正在进入的智能时代也都充满着期待。我们曾见证蒸汽时代的力量，电气时代的光明，信息时代的互联。总的来说，大模型正从聊天陪伴走向解决各类场景需求的应用，我们正站在价值爆发的前夜，谁能把握住 AI 应用的最佳实践和基础设施效能优化的机遇，谁就能在未来 AI 的新格局中脱颖而出。

2025-09-01 16:55:14 921

原创具身智能竞速时刻，百度百舸提供全栈加速方案

百度百舸·AI异构计算平台，基于「极致训推加速 + 一站式开发平台 + 全栈工具链」的综合能力体系，为具身智能企业提供从研发到部署的全周期加速支持，旨在全面提升视觉语言模型 VLM、世界模型 WM、视觉语言动作模型 VLA 等各类模型的训练与迭代效率。

2025-08-12 14:56:01 888

原创 GPT OSS 双模型上线，百度百舸全面支持快速部署

百度百舸·AI 异构计算平台，是面向大模型训推一体化的基础设施，提供领先的 AI 工程加速能力，从资源准备、模型开发、模型训练到模型部署，为 AI 工程全周期提供丰富特性和极致易用体验。

2025-08-08 16:33:48 682

原创像搜索一样简单，百度网络运维的 AI 智能体设计和实践

如果我们把时延和拓扑数据交给 LLM 进行分析，它会结合拓扑对时延数据进行分析，并且给出最终的结论：当前每一组的时延是否正常，时延数据是否符合实际数据、如果有异常，是哪一组或者哪些组有异常，该怎么检查，LLM 会分析得明明白白的。

2025-07-30 11:03:13 747

原创 Redis 数据恢复的月光宝盒，闪回到任意指定时间

数据闪回」基于 RDB 和 AOF 的混合持久化方式，使得较少存储空间就能保留完整的数据备份，并为 AOF 新增时间戳，方便快速找到指定时间点的文件。随后，系统依据原集群的分片规则和用户指定的时间点，精准定位对应的 RDB 文件与 AOF 文件，将这两类文件加载至 Redis 内存，完成整个数据恢复操作，使 Redis 集群状态精准还原至用户指定的时间节点。原生 Redis 的 AOF 文件会记录全部的写命令，但是并没有给这些命令配置时间信息，导致系统无法快速找到指定时间点的文件，使得数据恢复效率受限。

2025-05-30 18:30:25 1084

空空如也

空空如也