
代码片段
文章平均质量分 64
Hi20240217
每天进步一点点
展开
-
简单适配torch_npu不支持的ATen算子
简单适配torch_npu不支持的ATen算子原创 2025-04-22 15:41:14 · 484 阅读 · 0 评论 -
Intel平台不同方式的AI推理测试
Intel平台不同方式的AI推理测试原创 2025-04-10 17:30:54 · 869 阅读 · 0 评论 -
intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime
intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime原创 2025-04-03 16:02:31 · 285 阅读 · 0 评论 -
基于PyTorch通信算子的分布式训练阻塞定位方法
基于PyTorch通信算子的分布式训练阻塞定位方法原创 2025-03-13 16:25:16 · 567 阅读 · 0 评论 -
基于PyTorch通信算子的分布式训练阻塞定位方法
基于PyTorch通信算子的分布式训练阻塞定位方法原创 2025-03-13 15:56:15 · 398 阅读 · 0 评论 -
如何在24GB的GPU上运行DeepSeek-R1-Distill-Qwen-32B
随着深度学习的不断发展,大型语言模型(LLM,Large Language Model)在自然语言处理领域展现出了强大的能力。然而,伴随着模型参数规模的指数级增长,运行这些模型所需的计算资源也变得异常庞大,尤其是对显存(GPU内存)的需求。因此,如何在有限的GPU显存下有效地运行超大规模的LLM,成为了一个亟待解决的挑战。本文验证在GPU显存受限的情况下,如何高效地运行超出GPU内存容量的LLM模型。通过对模型权重的量化和内存管理策略的优化,期望能够突破硬件瓶颈,为大型模型的部署和应用提供新的思路。原创 2025-02-13 21:12:56 · 1641 阅读 · 1 评论 -
如何使用MindSpeed-LLM做权值格式转换
【代码】如何使用MindSpeed-LLM做权值格式转换。原创 2025-02-11 13:40:03 · 504 阅读 · 0 评论 -
统计DeepSeekR1推理需要的GPU内存
统计DeepSeekR1推理需要的GPU内存原创 2025-02-07 13:58:29 · 917 阅读 · 0 评论 -
Mellanox Kubernetes Device Plugin 安装指南
Mellanox Kubernetes Device Plugin 安装指南原创 2025-01-25 13:37:23 · 610 阅读 · 0 评论 -
Harbor 部署教程
Harbor 是一个开源的企业级容器镜像注册中心,提供高效的镜像管理、访问控制、安全扫描等功能。通过以上步骤和注意事项,您可以顺利部署和管理 Harbor 容器镜像注册中心,提升企业的容器化管理能力原创 2025-01-23 16:13:36 · 669 阅读 · 0 评论 -
网络拓扑可视化:使用Python绘制带带宽信息的节点连接图
在网络拓扑研究和网络性能分析中,直观地展示网络节点之间的连接关系和带宽分布对于理解网络结构至关重要。本博客将介绍如何使用Python的NetworkX和Matplotlib库,生成一个模拟的网络拓扑图,展示节点之间的双向带宽,并解决绘制过程中可能出现的边与节点相交的问题。我们将模拟一个包含32个节点的网络,每个节点之间通过4条链路连接。带宽数据是随机生成的,特定节点的带宽值范围会有所不同。原创 2025-01-20 16:27:29 · 1034 阅读 · 0 评论 -
测试集群内主机链路带宽并生成网络拓扑图
我们希望生成集群内主机之间每条链路的带宽图。执行完上述步骤后,将生成集群内主机链路带宽的拓扑图。可用于分析集群网络性能。原创 2025-01-18 17:08:29 · 869 阅读 · 0 评论 -
RK3588-NPU pytorch-image-models 模型编译测试
【代码】RK3588-NPU pytorch-image-models 模型编译测试。原创 2025-01-14 21:17:05 · 599 阅读 · 0 评论 -
Pytorch通信算子组合测试
Pytorch通信算子组合测试原创 2025-01-13 13:58:06 · 893 阅读 · 0 评论 -
RK3588 NPU测试
【代码】RK3588 NPU测试。原创 2025-01-11 10:12:04 · 301 阅读 · 0 评论 -
RK3588上CPU和GPU算力以及opencv resize的性能对比测试
【代码】RK3588上CPU和GPU算力以及opencv resize的性能对比测试。原创 2025-01-10 17:55:27 · 2974 阅读 · 0 评论 -
IREE和TensorRT性能对比
【代码】IREE和TensorRT性能对比。原创 2025-01-08 18:00:05 · 372 阅读 · 0 评论 -
查看sycl kernel转spirv之后需要实现哪些api
【代码】查看sycl kernel转spirv之后需要实现哪些api。原创 2025-01-07 16:55:20 · 186 阅读 · 0 评论 -
MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API
【代码】MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API。原创 2025-01-07 16:26:53 · 1247 阅读 · 0 评论 -
通过ttyd实现web ssh
【代码】通过ttyd实现web ssh。原创 2025-01-02 09:47:36 · 462 阅读 · 0 评论 -
将sycl test-e2e中所有编译不过的测例删掉
【代码】将sycl test-e2e中所有编译不过的测例删掉。原创 2024-12-31 15:05:41 · 163 阅读 · 0 评论 -
yolov8 label_studio 半自动化标注
本文演示label_studio如何用于yolo模型的半自动标注原创 2024-12-26 20:05:47 · 561 阅读 · 0 评论 -
ssh自动登录服务器,创建容器,拉取git代码执行,保存日志
用python实现以下功能* 1.ssh登录服务器* 2.进入docker容器* 3.从github拉取代码编译运行* 4.保存终端日志到文件原创 2024-11-15 18:49:05 · 199 阅读 · 0 评论 -
采用macvlan绕过某些软件需要MAC授权的问题
采用macvlan绕过某些软件需要MAC授权的问题某些软件需要跟MAC绑定,新的设备需要单独授权,特别费事.因此,采用macvlan方式,为容器指定已经授权的MAC,绕过授权原创 2024-11-05 15:46:07 · 1254 阅读 · 0 评论 -
Gitlab自动化相关脚本
本文演示了Gitlab如何自动上传SSH Key、如何clone代码免提示以及自动下载Gitlab上的文件原创 2024-11-05 13:49:27 · 570 阅读 · 0 评论 -
openvino python推理demo
openvino python推理demo原创 2024-11-04 13:54:00 · 289 阅读 · 0 评论 -
使用onnxruntime c++ API实现yolov5m视频检测
本文演示了yolov5m从模型导出到onnxruntime推理的过程原创 2024-11-04 13:49:14 · 473 阅读 · 0 评论 -
将python程序制作成服务,用supervisor管理
将python程序制作成服务,用supervisor管理原创 2024-10-25 17:58:35 · 265 阅读 · 0 评论 -
编译grpc v1.62.0,制作deb安装包
编译grpc v1.62.0,制作deb安装包原创 2024-10-25 17:48:15 · 136 阅读 · 0 评论 -
TensorRT C++ ONNX 推理
CUDA 12.4.1 + TensorRT10.1.0 C++ 推理1.onnxruntime 推理生成输入输出2.TensorRT推理,比对MSE原创 2024-10-25 17:37:14 · 509 阅读 · 0 评论 -
unified-runtime编译与验证
unified-runtime编译与验证原创 2024-10-19 21:13:42 · 338 阅读 · 0 评论 -
sycl编译器编译及测试
sycl编译器编译及测试。原创 2024-10-19 20:49:37 · 288 阅读 · 0 评论 -
TensorRT推理端到端
本文演示TensorRT推理端到端。原创 2024-10-19 20:42:42 · 617 阅读 · 0 评论 -
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈
oneAPI学习-使用oneAPI 实现矩阵乘法并分析性能瓶颈原创 2024-10-13 14:06:46 · 842 阅读 · 0 评论 -
rocm PeerAccess 测试
rocm PeerAccess 测试原创 2024-10-13 08:44:47 · 328 阅读 · 0 评论 -
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小
探索NVIDIA GPU PeerAccess的访问范围如何突破PCIE Bar空间大小原创 2024-10-13 08:40:32 · 1417 阅读 · 0 评论 -
CUDA Graphs学习与实验
CUDA图(CUDA Graphs)为CUDA引入了一种全新的工作提交模型。它允许将一系列操作(如内核启动)以图的形式表示,并通过依赖关系将这些操作连接起来。这种图的定义过程与其执行过程是分开的,这意味着我们可以提前定义好一个图,然后多次重复执行它原创 2024-10-11 10:03:58 · 1556 阅读 · 0 评论 -
CUDA Context学习及实验
CUDA上下文(CUDA Context)是一个核心概念,负责在GPU设备上管理和维护CUDA程序执行所需的所有状态和资源。原创 2024-10-10 13:53:46 · 1519 阅读 · 0 评论 -
CUDA Green Contexts测试
CUDA Green Contexts 测试原创 2024-10-09 20:00:31 · 1368 阅读 · 0 评论 -
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系
测试NCU中srcnode_gpc、srcunit_l1、srcunit_tex之间的关系。原创 2024-10-09 15:30:31 · 555 阅读 · 0 评论