DOCA 简介
NVIDIA DOCA 技术框架详解
NVIDIA DOCA(Data-Center Infrastructure On-Accelerator)是专为 NVIDIA BlueField 数据处理单元(DPU) 和 ConnectX 网络接口卡(NIC) 设计的软件框架,核心目标是通过 “硬件加速 + 软件简化”,实现数据中心工作负载的卸载、隔离与性能优化,解决传统 CPU 架构在网络、存储、安全场景下的瓶颈问题。
一、核心定位与价值
DOCA 的本质是 “DPU/SuperNIC 的开发与运行中枢”,连接硬件能力与上层应用,主要价值体现在三个维度:
-
性能提升:将网络转发、存储虚拟化、数据加密等 “计算密集型 + IO 密集型” 工作负载从 CPU 卸载到专用硬件加速器,降低 CPU 占用率(最高可减少 90%),提升整体吞吐量(如网络转发速率达 400Gbps+)。
-
安全隔离:通过硬件级租户隔离,实现不同应用 / 用户的资源(网络、存储、计算)隔离,避免恶意攻击跨租户渗透,同时支持实时威胁检测。
-
开发简化:提供标准化 API 与工具链,屏蔽硬件底层复杂度,让开发者无需深入 DPU 硬件细节,即可快速构建加速应用(如 1 周内完成网络安全应用开发)。
二、核心功能特点
1. 工作负载卸载与加速
DOCA 依托 BlueField DPU/SuperNIC 的硬件加速单元,支持多类关键工作负载的卸载,覆盖数据中心核心场景:
-
网络加速:卸载 TCP/IP 协议栈、VXLAN/GRE 隧道封装 / 解封装、BGP 路由计算等,支持 400Gbps+ 网络转发,延迟低至亚微秒级。
-
存储加速:加速 NVMe over Fabrics(NVMe-oF)、S3 对象存储协议、数据压缩(LZ4/GZIP)与加密(AES-256),提升存储 IOPS(最高达 1000 万 +)。
-
安全加速:硬件加速 TLS/SSL 加密解密、IPsec VPN、DDoS 攻击防御(如 SYN Flood 过滤)、入侵检测(IDS/IPS),无性能损耗。
-
计算卸载:支持将 AI 数据预处理(如数据分片、格式转换)、容器网络接口(CNI)逻辑卸载到 DPU,释放 CPU 资源给核心业务。
2. 标准化开发与运行生态
DOCA 提供全链路工具链,降低开发门槛,同时保障大规模部署能力:
-
标准化 API:提供 C/C++/Python 接口,兼容行业标准(如 DPDK、SPDK),现有基于 DPDK 的应用可快速迁移至 DOCA。
-
完整 SDK 组件:包含驱动程序、加速库(如 DOCA Flow 网络库、DOCA Storage 库)、调试工具(DOCA CLI)、示例代码(覆盖网络、安全、存储场景)。
-
大规模编排支持:集成 Kubernetes、OpenStack 等云原生编排平台,支持 10 万 + GPU/DPU 集群的统一部署与管理,同时保持租户隔离。
3. 硬件级安全能力
DOCA 基于 BlueField DPU 的硬件信任根,构建端到端安全体系:
-
租户隔离:通过硬件分区(Hardware Partitioning)将网络、存储资源划分为独立租户空间,避免跨租户数据泄露或干扰。
-
实时威胁检测:结合 DOCA Security 库,利用硬件级流量分析,实时识别异常网络行为(如恶意端口扫描、数据窃取),响应延迟 < 1ms。
-
数据加密:从网络传输(TLS/IPsec)到存储(静态数据 AES 加密),全程硬件加速,无性能损耗。
三、组件构成
DOCA 软件栈分为 主机侧(Host) 和 DPU 侧(Target) 两部分,协同实现功能:
| 组件分类 | 核心模块 | 功能说明 |
|---|---|---|
| 主机侧组件 | DOCA-Host Package | 包含主机驱动(如 MLNX_OFED)、配置工具(doca-cli)、主机侧加速库,负责主机与 DPU 的通信协调。 |
| DPU 侧组件 | DOCA Runtime | 预装于 BlueField DPU 的操作系统(如 DOCA Linux)中,提供 DPU 本地运行环境,支持容器化部署。 |
| DOCA SDK | 开发者核心工具包:含 API 文档、加速库(Flow/Storage/Security)、示例代码、调试工具。 | |
| DOCA Services | 预置的加速服务,如 DOCA Firewall(防火墙)、DOCA Storage Gateway(存储网关),可直接调用。 |
四、典型应用场景
1. AI 数据中心
-
AI 训练数据流水线加速:通过 DOCA 将 AI 数据的分片、格式转换、传输卸载到 DPU,避免 CPU 成为瓶颈,提升 GPU 利用率(最高可提升 30%)。
-
大规模 GPU 集群互联:基于 DOCA 的 RDMA over Converged Ethernet(RoCE)技术,实现 GPU 间低延迟通信(延迟 < 2 微秒),支持 1000+ GPU 集群的分布式训练。
2. 云计算
-
云租户隔离与安全:通过 DOCA 的硬件级租户隔离,为云厂商提供 “物理隔离级” 的租户资源划分,同时支持实时 DDoS 防御,降低云安全成本。
-
存储虚拟化加速:将 OpenStack Cinder、Ceph 的存储 IO 路径卸载到 DPU,提升存储服务 IOPS(从 10 万级提升至 1000 万级),延迟降低 50%。
3. 企业数据中心
-
混合云网络互联:基于 DOCA 的 BGP/EVPN 支持,实现企业本地数据中心与公有云(AWS/Azure)的高速互联,简化网络配置,提升带宽利用率。
-
核心业务安全防护:通过 DOCA Firewall+IDS/IPS,为 ERP、数据库等核心业务提供硬件加速的安全防护,吞吐量达 400Gbps,无性能损耗。
五、版本与兼容性
-
最新稳定版:DOCA 2.5(2024 年发布),新增 AI 数据预处理加速、S3 存储协议硬件卸载、Kubernetes 动态资源调度功能。
-
硬件兼容性:
-
支持 BlueField 系列 DPU:BlueField-2、BlueField-3、BlueField-4(即将发布);
-
支持 ConnectX 系列 NIC:ConnectX-6、ConnectX-7(SuperNIC);
-
-
软件兼容性:
-
操作系统:Linux(Ubuntu 20.04/22.04、RHEL 8/9)、DOCA Linux(DPU 专用系统);
-
云平台:Kubernetes 1.24+、OpenStack Yoga+;
-
开发语言:C/C++、Python(通过 PyDOCA 绑定)。
-
DOCA 体验
有幸获得了 丽台科技下方的DOCA的体验名额。

NVIDIA DOCA™ 释放了 NVIDIA® BlueField® 网络平台的潜力。通过利用 BlueField DPU 和 SuperNIC 的强大功能,DOCA 能够快速创建应用程序和服务,以卸载、加速和隔离数据中心工作负载。借助 DOCA, 开发者可以通过创建软件定义、云原生、DPU 和 SuperNIC 加速的服务,并支持零信任保护,从而满足现代数据中心的性能和安全需求。DOCA-Host 包含 NVIDIA BlueField 和 ConnectX® 设备所需的所有主机驱动和工具。

一番简单的尝试连接上了官方所提供的环境

通过官方指南进入 NVIDIA DOCA DPU 环境
具体代码案例分析

1252

被折叠的 条评论
为什么被折叠?



