自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(256)
  • 收藏
  • 关注

原创 Linux环境下基于指令追踪的源码覆盖分析技术实践

Linux环境下基于指令追踪的源码覆盖分析技术实践

2025-04-11 14:42:37 710

原创 Intel平台不同方式的AI推理测试

Intel平台不同方式的AI推理测试

2025-04-10 17:30:54 845

原创 intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime

intel-xpu-backend-for-triton绕过pytorch直接调用Unified-Runtime

2025-04-03 16:02:31 259

原创 如何从无法启动的KVM虚拟机中提取文件

如何从无法启动的KVM虚拟机中提取文件

2025-03-31 13:49:45 321

原创 基于ltrace的linux自定义函数耗时统计方法

基于ltrace的linux自定义函数耗时统计方法

2025-03-29 16:24:54 392

原创 不同版本sycl编译器测试

不同版本sycl编译器测试

2025-03-13 20:59:38 312

原创 基于Grafana+Prometheus的IB网卡硬件计数器监控方案

基于Grafana+Prometheus的IB网卡硬件计数器监控方案

2025-03-13 16:25:49 476

原创 基于PyTorch通信算子的分布式训练阻塞定位方法

基于PyTorch通信算子的分布式训练阻塞定位方法

2025-03-13 16:25:16 552

原创 基于PyTorch通信算子的分布式训练阻塞定位方法

基于PyTorch通信算子的分布式训练阻塞定位方法

2025-03-13 15:56:15 388

原创 PyTorch多机训练Loss不一致问题排查指南:基于算子级一致性验证

比较二次训练过程中所有算子的误差,定位存在一致性问题的pytorch算子

2025-03-13 15:38:00 658

原创 如何在24GB的GPU上运行DeepSeek-R1-Distill-Qwen-32B

随着深度学习的不断发展,大型语言模型(LLM,Large Language Model)在自然语言处理领域展现出了强大的能力。然而,伴随着模型参数规模的指数级增长,运行这些模型所需的计算资源也变得异常庞大,尤其是对显存(GPU内存)的需求。因此,如何在有限的GPU显存下有效地运行超大规模的LLM,成为了一个亟待解决的挑战。本文验证在GPU显存受限的情况下,如何高效地运行超出GPU内存容量的LLM模型。通过对模型权重的量化和内存管理策略的优化,期望能够突破硬件瓶颈,为大型模型的部署和应用提供新的思路。

2025-02-13 21:12:56 1585 2

原创 如何使用MindSpeed-LLM做权值格式转换

【代码】如何使用MindSpeed-LLM做权值格式转换。

2025-02-11 13:40:03 472

原创 统计DeepSeekR1推理需要的GPU内存

统计DeepSeekR1推理需要的GPU内存

2025-02-07 13:58:29 910

原创 Kubernetes入门指南:如何指定Pod运行的节点

为目标节点添加自定义标签:通过标签标识节点的特性或角色。在Pod的YAML配置文件中使用:根据节点的标签选择目标节点进行调度。下面我们将详细介绍每个步骤的具体操作。在Kubernetes中,通过为节点添加标签并在Pod的配置文件中使用,您可以轻松地控制Pod的调度位置。这不仅有助于在特定节点上复现问题,还能优化资源利用,满足应用的特定需求。本文介绍的方法简单易懂,非常适合Kubernetes新手入门。

2025-01-27 20:37:54 792

原创 使用 Helm 自动化脚本创建 Kubernetes Pod 并进行免密处理

使用 Helm 自动化脚本创建 Kubernetes Pod 并进行免密处理

2025-01-25 13:57:44 774

原创 Mellanox Kubernetes Device Plugin 安装指南

Mellanox Kubernetes Device Plugin 安装指南

2025-01-25 13:37:23 595

原创 集群IB网络扫描

集群IB网络扫描

2025-01-25 13:22:30 1347

原创 Harbor 部署教程

Harbor 是一个开源的企业级容器镜像注册中心,提供高效的镜像管理、访问控制、安全扫描等功能。通过以上步骤和注意事项,您可以顺利部署和管理 Harbor 容器镜像注册中心,提升企业的容器化管理能力

2025-01-23 16:13:36 655

原创 网络拓扑可视化:使用Python绘制带带宽信息的节点连接图

在网络拓扑研究和网络性能分析中,直观地展示网络节点之间的连接关系和带宽分布对于理解网络结构至关重要。本博客将介绍如何使用Python的NetworkX和Matplotlib库,生成一个模拟的网络拓扑图,展示节点之间的双向带宽,并解决绘制过程中可能出现的边与节点相交的问题。我们将模拟一个包含32个节点的网络,每个节点之间通过4条链路连接。带宽数据是随机生成的,特定节点的带宽值范围会有所不同。

2025-01-20 16:27:29 1007

原创 测试集群内主机链路带宽并生成网络拓扑图

我们希望生成集群内主机之间每条链路的带宽图。执行完上述步骤后,将生成集群内主机链路带宽的拓扑图。可用于分析集群网络性能。

2025-01-18 17:08:29 866

原创 集群内SSH免密登录及批处理

在集群环境中,我们希望能够在多台主机上批量安装软件、获取信息等操作。为了提高效率,需要实现集群内的SSH免密登录和批处理任务执行

2025-01-17 11:32:58 1070

原创 KVM创建ubuntu20.04虚机,部署K8S,再克隆出二份,做为Worker节点加入集群,通过Helm创建2个Pod,让它们之间通过域名互访

【代码】KVM创建ubuntu20.04虚机,部署K8S,再克隆出二份,做为Worker节点加入集群,通过Helm创建2个Pod,让它们之间通过域名互访。

2025-01-16 17:17:17 1447

原创 RK3588-NPU pytorch-image-models 模型编译测试

【代码】RK3588-NPU pytorch-image-models 模型编译测试。

2025-01-14 21:17:05 583

原创 Pytorch通信算子组合测试

Pytorch通信算子组合测试

2025-01-13 13:58:06 880

原创 RK3588 NPU测试

【代码】RK3588 NPU测试。

2025-01-11 10:12:04 289

原创 RK3588上CPU和GPU算力以及opencv resize的性能对比测试

【代码】RK3588上CPU和GPU算力以及opencv resize的性能对比测试。

2025-01-10 17:55:27 2735

原创 IREE和TensorRT性能对比

【代码】IREE和TensorRT性能对比。

2025-01-08 18:00:05 367

原创 查看sycl kernel转spirv之后需要实现哪些api

【代码】查看sycl kernel转spirv之后需要实现哪些api。

2025-01-07 16:55:20 179

原创 MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API

【代码】MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API。

2025-01-07 16:26:53 1219

原创 通过ttyd实现web ssh

【代码】通过ttyd实现web ssh。

2025-01-02 09:47:36 442

原创 将sycl test-e2e中所有编译不过的测例删掉

【代码】将sycl test-e2e中所有编译不过的测例删掉。

2024-12-31 15:05:41 155

原创 yolov8 label_studio 半自动化标注

本文演示label_studio如何用于yolo模型的半自动标注

2024-12-26 20:05:47 508

原创 ubuntu22.04上安装win10虚拟机,并采用noVNC+frp,让远程通过web访问桌面

ubuntu22.04上安装win10虚拟机,并采用noVNC+frp,让远程通过web访问桌面

2024-12-25 19:28:16 1231

原创 tmux常用命令

tmux常用命令

2024-12-13 21:32:23 246

原创 ssh自动登录服务器,创建容器,拉取git代码执行,保存日志

用python实现以下功能* 1.ssh登录服务器* 2.进入docker容器* 3.从github拉取代码编译运行* 4.保存终端日志到文件

2024-11-15 18:49:05 191

原创 采用macvlan绕过某些软件需要MAC授权的问题

采用macvlan绕过某些软件需要MAC授权的问题某些软件需要跟MAC绑定,新的设备需要单独授权,特别费事.因此,采用macvlan方式,为容器指定已经授权的MAC,绕过授权

2024-11-05 15:46:07 1223

原创 Gitlab自动化相关脚本

本文演示了Gitlab如何自动上传SSH Key、如何clone代码免提示以及自动下载Gitlab上的文件

2024-11-05 13:49:27 560

原创 openvino python推理demo

openvino python推理demo

2024-11-04 13:54:00 280

原创 使用onnxruntime c++ API实现yolov5m视频检测

本文演示了yolov5m从模型导出到onnxruntime推理的过程

2024-11-04 13:49:14 458

原创 将python程序制作成服务,用supervisor管理

将python程序制作成服务,用supervisor管理

2024-10-25 17:58:35 251

linux基于LD-PRELOAD机器的内存泄露检测工具

Valgrind影响性能且某些程序会报错,同时我们希望跳过初始化阶段,在程序稳定运行之后再去检测内存是否会持续增涨,为了更高效的记录内存分配情况,采用b+树.该程序会拦截malloc,free,calloc,realloc,new,delete。记录10层的PC指针,方便解析脚本定位调用的代码位置

2024-05-17

ffmpeg 异步推理filter源码

本文旨在阐述如何通过FFmpeg开发一个创新的滤镜模块,该模块利用gRPC异步通信机制调用远程视频处理服务。这一设计实现了对ffmpeg滤镜功能的精简化整合,仅需通过配置ffmpeg命令行参数,即可实现不同算法间的灵活切换与串联。得益于此,原始ffmpeg无需进行任何内部修改,同时支持服务端采用任意编程语言进行开发,从而显著提升了整体的开发效率和部署便利性。 此方案尤其适用于帧率相对较低、推理性能瓶颈明显且对延迟要求不苛刻的应用场景。在面对复杂的推理流水线时,若单台服务器资源足以应对计算需求,则可借助MediaPipe构建高效处理管道;而当需要扩展至多台服务器以提升并行处理能力时,则推荐采用Seldon框架部署微服务架构,确保系统的可扩展性和弹性伸缩能力。

2024-03-21

基于gRPC实现的异步推理框架

该项目是基于gRPC实现的异步推理框架。服务端采用python实现,客户端封装了grpc,对外仅提供推理相关的三个c接口,可用于跨进程推理。

2024-03-19

grpc v1.62.0

git clone --recurse-submodules -b v1.62.0 --depth 1 --shallow-submodules https://github.com/grpc/grpc

2024-03-19

百度地图路书功能演示DEMO

百度地图路书功能演示DEMO

2024-03-17

自动生成C结构体到json的序列化、反序列化代码的方法

自动生成C结构体到json的序列化、反序列化代码的方法

2024-02-24

C#实现的键盘记录后台程序,可运行在win10/win11系统.能记录各种键盘按键,并将字符保存到文件中

本文在https://github.com/lambdacasserole/silence 的基础上进行了兼容性调试,可以记录键盘按下的各种字符,并保存到文件中 主要修改点: 1.删除不需要的功能 2.隐藏窗口且不在任务栏显示 3.通过taskkill /im 结束进程 使用方法 1.使能Caps Lock(大写状态) 2.运行KMon.exe,点击隐藏按钮 3.所有的键盘按键都会记录在KMon.log文件里 4.执行taskkill /im KMon.exe关闭后台监控程序

2024-02-20

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除