DeepSeek 模型在 英特尔锐炫™ 显卡上的高效推理实践

点击蓝字

关注我们,让开发变得更有趣

OpenVINO™

随着人工智能技术的迅猛发展,大规模语言模型(LLMs)在自然语言处理、内容生成和智能对话等领域的应用日益广泛。国产 AI 大模型 DeepSeek 凭借其强大的生成能力和广泛的应用场景,迅速成为业界焦点。

目前,我们已经在英特尔® 酷睿™ 处理器与英特尔锐炫™ 显卡组成的硬件配置上,完成对大模型推理的验证,为 AI 模型的部署和推理提供了强有力的支持。

ee1d2e9395cdd8aa60e8280a1e29eaca.png

26f7eac0ce53eeedc71589d76cb80c63.png

86b4245b97cb4637aec1bfe632c0db3c.png

0427c164c01f7873cb240c36ba9b28a9.png

本文将带您深入了解如何在英特尔平台上高效部署 DeepSeek 模型,充分发挥其潜力,助力 AI 应用的快速落地。

OpenVINO™

硬件配置

GPU: 英特尔锐炫™ B580 12G

OpenVINO™

BIOS 配置

安装英特尔锐炫™显卡后,必须在 BIOS 中启用 PCIe 可重设 BAR(Base Address Register)。

OpenVINO™

操作系统和驱动程序安装

3.1 Ubuntu* 24.10 操作系统安装

以下是下载和安装 Ubuntu 24.10 的步骤:

1) 下载并安装 Ubuntu 24.10

wget https://releases.ubuntu.com/24.10/ubuntu-24.10-desktop-amd64.iso

2)关闭 Ubuntu 无人值守升级,以避免未经验证的内核更新。

登录 Ubuntu 后,设置屏幕永不锁定并启用自动登录。

  • Setting->Power->Power Saving->Screen Blank->Never

   设置 -> 电源 -> 节能 -> 屏幕空白 -> 从不

  • System->Users->Automatic Login

   系统 -> 用户 -> 自动登录

sudo systemctl disable --now unattended-upgrades

然后编辑/etc/apt/apt.conf.d/20auto-upgrades,将Unattended-Upgrade设置为 “0”。

3)检查内核版本是否为 6.11.

$ uname -a
Linux benchmark-Z590-VISION-D 6.11.0-8-generic #8-Ubuntu SMP PREEMPT_DYNAMIC Mon Sep 16 13:41:20 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux

4)重新启动设备,查看显示是否正常工作。

3.2 英特尔客户端 GPU

驱动程序安装(ARC B 系列)

参考:

https://dgpu-docs.intel.com/driver/client/overview.html#installing-client-gpus-on-ubuntu-desktop-24-10

3.2.1 在 Ubuntu Desktop 24.10 上

安装客户端 GPU

使用以下命令安装 intel-graphics PPA 和必要的计算与媒体包:

sudo apt-get update
sudo apt-get install -y software-properties-common


# Add the intel-graphics PPA for 24.10
sudo add-apt-repository -y ppa:kobuk-team/intel-graphics


# Install the compute-related packages
sudo apt-get install -y libze-intel-gpu1 libze1 intel-ocloc intel-opencl-icd clinfo intel-gsc hwinfo


# Install the media-related packages
sudo apt-get install -y intel-media-va-driver-non-free libmfx1 libmfx-gen1 libvpl2 libvpl-tools libva-glx2 va-driver-all vainfo

安装完毕后,请启动“命令提示符”,然后输入 “dotnet --info” 指令,验证安装是否成功:

上述命令安装了大多数用户所需的所有基本包,旨在尽量减少不必要的包安装。

请注意,不同版本的 intel-opencl-icd 可能会有不同的性能表现。

3.2.2 配置渲染组成员资格

要访问 GPU 功能,当前用户必须能够访问 /dev/dri 中的 DRM 渲染节点。

如果当前用户不是 DRM 渲染节点(通常为 'render')组的成员,请将用户添加到渲染节点组。

sudo gpasswd -a ${USER} render

这对更新后创建的 shell 就足够了。要更改当前 shell 的组 ID:

newgrp render

3.3 验证英特尔锐炫™ B580 PCIe 配置空间

确保英特尔锐炫™ B580 PCIe 配置空间具有 12GB 的 BAR2。以下是检查 GPU PCIe 配置空间的指南:

步骤 1:列出 VGA 设备的 PCIe 总线地址。

lspci | grep -i vga

您将在屏幕上看到这些消息:

0562bc841521a500c05075d105c22044.png

步骤 2:检查英特尔锐炫™ B580 的 PCIe 功能。

sudo lspci -s 03:00 -vvv | grep BAR

您将看到英特尔锐炫™ B580 的 PCIe 功能,并检查 PCIe 配置空间。

OpenVINO™

OpenVINO™ 和基准测试工具安装

OpenVINO™ 是一个开源工具包,用于优化和部署从云到边缘的深度学习模型。它加速了各种用例的深度学习推理,如生成式 AI、视频、音频和语言,支持来自流行框架(如 PyTorch、TensorFlow、ONNX 等)的模型。转换和优化模型,并部署在混合的英特尔® 硬件和环境中,无论是在本地、设备上、浏览器中还是云端。

OpenVINO™ GenAI 是 OpenVINO™ 的一个变体,旨在简化生成式 AI 模型的推理运行。它隐藏了生成过程的复杂性,并最大限度地减少了所需的代码量。

使用以下命令快速安装 OpenVINO™ 和工具。

git clone https://github.com/openvinotoolkit/openvino.genai.git


cd ./tools/llm_bench


python3 -m venv python-env


source python-env/bin/activate


pip install --upgrade pip


pip install -r requirements.txt

更多详情请参考 openvino.genai/tools/llm_bench at master · openvinotoolkit/openvino.genai · GitHub

https://github.com/openvinotoolkit/openvino.genai/tree/master/tools/llm_bench

OpenVINO™

运行 DeepSeek 蒸馏模型的基准测试

5.1 下载预训练的 LLM 模型

访问:

https://huggingface.co 或 https://www.modelscope.cn

下载 deepseek 蒸馏模型,并将下载的模型保存在 ~/models 文件夹中。

5.2 将模型转换为 OpenVINO™ IR

运行以下命令将 DeepSeek-R1-Distill-Qwen-7B 转换为 IR 格式并将权重压缩为 INT4。您的系统必须至少具有 64GB 内存才能进行转换。

optimum-cli export openvino --framework pt 
-m ./DeepSeek-R1-Distill-Qwen-7B --weight-format int4 –sym 
--trust-remote-code --task 
text-generation-with-past ./DeepSeek-R1-Distill-Qwen-7B-IR

5.3 使用 OpenVINO™ 启动 LLM 基准测试

要在 B580 上启动 LLM 模型 DeepSeek-R1-Distill-Qwen-7B 的基准测试,请运行以下命令:

python3 benchmark.py -m DeepSeek-R1-Distill-Qwen-7B-IR -n 1 -d GPU
python benchmark.py -m DeepSeek-R1-Distill-Qwen-7B-IR -p "What is openvino?" -n 1 -d GPU

测试结果将显示在屏幕上。请注意,结果可能因平台和软件版本而异。

OpenVINO™

通过本文的详细步骤和配置指南,我们成功在英特尔平台上验证了 DeepSeek 蒸馏模型的推理性能。从硬件配置、BIOS 设置、操作系统安装到驱动程序和 OpenVINO™ 工具的部署,每一步都确保了系统发挥更卓越的性能。

通过基准测试,我们展示了 DeepSeek-R1-Distill-Qwen 系列模型在 INT4 精度下的高效推理能力,尤其是在首个 token 和后续 token 的延迟表现上,展现了英特尔锐炫™ 显卡在处理大模型推理任务时的强大潜力。英特尔锐炫™ B580能够为AI工作负载提供加速,其配备的英特尔Xe矩阵计算引擎(XMX),为新推出的XeSS 2提供强大支持。OpenVINO™ 工具套件可以缩短延迟,提高吞吐量,加速 AI 推理过程,同时保持精度,缩小模型占用空间,优化硬件使用。

未来,随着硬件和软件的进一步优化,我们期待在更多复杂场景中,特别是在生成式 AI 和大规模语言模型的应用中,验证和英特尔锐炫™ 显卡的性能,通过英特尔丰富的软硬件产品协同,为 DeepSeek 及各种 AI 大模型的应用提供更强大的算力,让边缘侧部署 AI 的使用场景有更多可能。

OpenVINO™

---------------------------------------

*OpenVINO and the OpenVINO logo are trademarks of Intel Corporation or its subsidiaries.

-----------------------------

 OpenVINO 中文社区 

微信号 : openvinodev

B站:OpenVINO中文社区

“开放、开源、共创”

致力于通过定期举办线上与线下的沙龙、动手实践及开发者交流大会等活动,促进人工智能开发者之间的交流学习。

○ 点击 “ 在看 ”,让更多人看见

<think>嗯,用户问的是DeepSeek如何使用英特尔的集成显卡加速。首先,我需要确定DeepSeek是什么。根据之前的对话历史,可能是指深度求索公司的AI模型,比如DeepSeek-R1或者他们的其他大模型。接下来,得考虑Intel集成显卡的加速技术,比如OpenVINO或者OneAPI。 用户可能对深度学习框架和硬件加速不太熟悉,所以需要分步骤解释。首先,要确认DeepSeek模型是否支持Intel的集成显卡。可能需要转换模型格式,比如用OpenVINO的模型优化器。然后安装必要的库,比如OpenVINO或者Intel Extension for PyTorch。 接下来,可能需要示例代码,比如加载模型并用OpenVINO加速。还要考虑依赖项,比如安装Intel的软件工具,设置环境变量等。另外,性能调优方面,比如调整线程数或批处理大小,也可能需要提及。 需要提醒用户注意兼容性和性能差异,毕竟集成显卡相比独立GPU可能性能有限。最后,建议查阅官方文档和社区支持。可能用户是开发者或研究人员,想在自己的设备上运行模型,但硬件资源有限,所以需要优化方法。需要确保回答清晰、步骤明确,并提供足够的资源链接帮助用户进一步操作。</think>DeepSeek(深度求索)的模型若要利用英特尔集成显卡进行加速,通常需要借助英特尔提供的工具和库(如OpenVINO、oneAPI等)。以下是常见步骤和方法的概述: --- ### **1. 确认硬件和软件支持** - **硬件要求**:确保设备搭载Intel Core处理器(第6代或更新)并集成Intel UHD/Iris Xe显卡。 - **软件依赖**: - 安装[Intel OpenVINO Toolkit](https://docs.openvino.ai/)(推荐2023.1+版本)。 - 若使用PyTorch,可安装[Intel Extension for PyTorch](https://github.com/intel/intel-extension-for-pytorch)。 --- ### **2. 模型转换与优化** #### **使用OpenVINO加速** - **步骤**: 1. **转换模型**:将DeepSeek模型(如ONNX格式)通过OpenVINO的模型优化器转换为IR格式: ```bash mo --input_model model.onnx --output_dir ir_model ``` 2. **加载并推理**: ```python from openvino.runtime import Core core = Core() model = core.read_model("ir_model/model.xml") compiled_model = core.compile_model(model, "GPU.1") # 指定集成显卡 results = compiled_model.infer_new_request(inputs) ``` #### **使用Intel PyTorch扩展** - 在PyTorch代码中启用Intel优化: ```python import intel_extension_for_pytorch as ipex model = ... # 加载DeepSeek模型 model = ipex.optimize(model) # 应用Intel优化 # 后续推理自动调用集成显卡 ``` --- ### **3. 性能调优建议** - **线程绑定**:通过环境变量控制CPU/GPU线程分配: ```bash export OMP_NUM_THREADS=4 # 根据CPU核心数调整 ``` - **批处理优化**:适当增加推理时的批处理大小(batch size)。 - **精度调整**:尝试FP16或INT8量化(需验证精度损失)。 --- ### **4. 验证与监控** - **检查设备调用**:通过OpenVINO或系统监控工具确认集成显卡是否被调用。 - **性能对比**:对比加速前后的推理速度(FPS)和资源占用。 --- ### **注意事项** - **兼容性**:并非所有模型算子都支持集成显卡加速,需测试验证。 - **性能差异**:集成显卡的加速效果通常弱于独立GPU,适合轻量级推理。 建议参考英特尔官方文档和DeepSeek的部署指南获取详细配置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值