
学习
文章平均质量分 77
Hi20240217
每天进步一点点
展开
-
RDMA高性能网络通信实践
远程直接内存访问(RDMA)技术通过绕过操作系统内核和CPU直接访问远程内存,实现了超低延迟、高吞吐量的网络通信。该技术广泛应用于高性能计算、分布式存储和机器学习等领域。本文通过一个完整的代码示例,演示如何利用RDMA核心组件(QP、MR、CQ等)实现跨节点内存直接读写。原创 2025-05-01 12:00:24 · 691 阅读 · 0 评论 -
Clang中ext_vector_type和address_space __attribute__的使用
本文介绍了 Clang 中如何利用 attribute 属性来定义扩展向量类型(ext_vector_type)以及指定变量所在的地址空间(address_space)。attribute 是一个强大的工具,可以帮助开发者向编译器提供额外的信息,以产生更有效或更符合硬件要求的代码。ext_vector_type 使得定义和操作向量数据类型变得简单,这对高性能计算尤其有用。address_space 属性则有助于在需要处理多个内存区域的专业应用中明确变量或指针的内存位置。原创 2025-04-27 17:21:00 · 938 阅读 · 0 评论 -
使用 cpp-peglib 与 LLVM API 生成算数表达式 LLVM IR 并编译执行
本文演示如何使用 cpp-peglib 解析算术表达式,并利用 LLVM API 动态生成 LLVM 中间表示(LLVM IR)。整个过程包括:• 使用 cpp-peglib 编写符合语法规则的解析器,生成语法树(AST);• 构造一个遍历 AST 的算法,并借助 LLVM 的 IRBuilder 对象生成包含算数运算指令(如 add、sub、mul、sdiv 等)的 LLVM IR;• 将生成的 LLVM IR 文件通过 clang 编译成可执行程序,并执行以得到最终结果。原创 2025-04-27 13:47:21 · 837 阅读 · 0 评论 -
NCCL通信中Group与独立操作的区别
NCCL通信中Group与独立操作的区别原创 2025-04-25 15:10:45 · 628 阅读 · 0 评论 -
codon调试环境搭建及运行流程跟踪
codon调试环境搭建及运行流程跟踪原创 2025-04-23 13:47:42 · 936 阅读 · 1 评论 -
PoCL环境搭建
Portable Computing Language (PoCL) 是一个开源的、符合标准的异构计算框架,旨在为 OpenCL 应用程序提供高效且可移植的并行计算支持。PoCL 的核心设计目标是实现 **跨平台兼容性** 和 **灵活的后端支持**,使开发者能够利用 CPU、GPU 及其他加速器执行 OpenCL 程序,而无需依赖特定厂商的驱动或硬件。原创 2025-04-18 20:34:34 · 630 阅读 · 0 评论 -
如何在24GB的GPU上运行DeepSeek-R1-Distill-Qwen-32B
随着深度学习的不断发展,大型语言模型(LLM,Large Language Model)在自然语言处理领域展现出了强大的能力。然而,伴随着模型参数规模的指数级增长,运行这些模型所需的计算资源也变得异常庞大,尤其是对显存(GPU内存)的需求。因此,如何在有限的GPU显存下有效地运行超大规模的LLM,成为了一个亟待解决的挑战。本文验证在GPU显存受限的情况下,如何高效地运行超出GPU内存容量的LLM模型。通过对模型权重的量化和内存管理策略的优化,期望能够突破硬件瓶颈,为大型模型的部署和应用提供新的思路。原创 2025-02-13 21:12:56 · 1641 阅读 · 1 评论 -
IREE和TensorRT性能对比
【代码】IREE和TensorRT性能对比。原创 2025-01-08 18:00:05 · 372 阅读 · 0 评论 -
查看sycl kernel转spirv之后需要实现哪些api
【代码】查看sycl kernel转spirv之后需要实现哪些api。原创 2025-01-07 16:55:20 · 186 阅读 · 0 评论 -
MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API
【代码】MLIR学习--使用Polygeist对C代码进行Tiling优化,并用MLIR Pass替换内层循环为外部API。原创 2025-01-07 16:26:53 · 1247 阅读 · 0 评论 -
GPU优化方法总结
GPU优化方法总结原创 2024-08-28 15:25:52 · 2366 阅读 · 0 评论 -
NVIDIA GPU 性能分析—GPU内部结构及任务调度过程
NVIDIA GPU 性能分析—GPU内部结构及任务调度过程。原创 2024-08-23 19:00:55 · 621 阅读 · 0 评论 -
CUDA_Occupancy_Calculator计算公式
CUDA_Occupancy_Calculator计算公式。原创 2024-07-30 20:12:21 · 192 阅读 · 0 评论 -
Excel模拟计算演示-以矩阵乘计算密度为例
安装好CUDA之后,/usr/local/cuda-12.1/tools/CUDA_Occupancy_Calculator.xls里会看到"=TABLE(,B17)"这样的表达式,原来是模拟计算的结果。原创 2024-07-25 13:56:47 · 497 阅读 · 0 评论 -
NsightComputeProfiling入门
本文是NsightCompute的一个演示。原创 2024-07-22 20:20:47 · 1376 阅读 · 0 评论 -
查看NVIDIA GPU设备节点映射关系
【代码】查看NVIDIA GPU设备节点映射关系。原创 2024-07-18 13:45:08 · 1714 阅读 · 0 评论 -
Volta独立线程调度
从Volta开始支持独立线程调度(Independent Thread Scheduling)原创 2024-07-17 09:16:10 · 611 阅读 · 0 评论 -
NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)
NVIDIA_Nsight_Compute_Metrics解释(非query-metrics部分)原创 2024-07-12 19:51:58 · 2574 阅读 · 0 评论 -
CUDA Kernel Profiling Guide LLM翻译
CUDA Kernel Profiling Guide LLM翻译原创 2024-07-10 22:25:28 · 954 阅读 · 0 评论 -
CUDA Kernel调试与优化--背景知识扫盲(LLM生成)
CUDA Kernel调试与优化--背景知识扫盲(LLM生成)原创 2024-07-09 20:59:50 · 1876 阅读 · 0 评论 -
LLM生成的CUDA CUPTI Metrics for Capability 7.0解释
LLM生成的CUDA CUPTI Metrics for Capability 7.0解释原创 2024-07-09 20:54:42 · 1142 阅读 · 0 评论 -
未来几年,同样的性能,推理功耗降低为现在的几万分之一,有可能吗
有人说未来几年,推理功耗能降低为现在的几万分之一,好奇怎么能做到呢。原创 2024-06-10 12:53:18 · 267 阅读 · 0 评论 -
Ascend训练软件栈了解
功能介绍:昇腾旗下的开源 AI 模型平台,涵盖计算机视觉、自然语言处理、语音、推荐、多模态、大语言模型等多个方向的 AI 模型及其基于昇腾机器实操案例。功能介绍:昇腾的 AI 模型平台,提供开源的 AI 模型和基于昇腾的实操案例,涵盖计算机视觉、自然语言处理、语音、推荐、多模态、大语言模型等领域。功能介绍:昇腾的大模型加速库,提供模型并行、流水线并行、序列并行、重计算、分布式优化器等多种加速算法,并支持昇腾专有算法,确保开箱可用。原创 2024-06-06 18:55:41 · 1887 阅读 · 0 评论