
cuda
文章平均质量分 51
Eloudy
哲学家一般认为经验中的规律性就是事物的本质;
对经验中的规律性,做出进一步的解释,是心灵的一种神秘能力,也可能仅仅是一种错觉;
经验,可以是玩出来的,体力劳动获得的,解了很多数学题后感受到的,编程中累积出来的,与朋友交流迸发出来的,读书得来的...
总之,作为一个个体,多折腾折腾,经验应该会更多吧
展开
-
ubuntu 安装 多版本 cuda 11.4 11.8
ubuntu 多版本cuda sdk原创 2023-03-01 13:12:45 · 4021 阅读 · 0 评论 -
ubuntu 安装 jax jaxlib cpu 和 gpu 版本 以及 tensorflow tensorRT的安装
安装jax jaxlib gpu tensorflow gpu tensorRT原创 2023-02-28 11:34:44 · 15964 阅读 · 2 评论 -
redhat 9.1 RHEL 9.1 安装 cuda 12.0
redhat 9.1 安装 cuda 12.0原创 2023-02-25 02:03:51 · 1098 阅读 · 0 评论 -
最新的 cuda 版本 与 驱动 driver 版本的最小匹配表
cuda sdk 版本 与 显卡驱动版本原创 2023-02-23 12:14:52 · 1580 阅读 · 0 评论 -
注释分析一个cusolver的官方示例:cuSolverDn_LinearSolver
cuSolverDn_LinearSolver 注释原创 2023-02-16 11:12:26 · 754 阅读 · 0 评论 -
一个 shfl sync __shfl_up_sync 的示例
sync __shfl_up_sync 的示例原创 2023-02-15 11:41:47 · 265 阅读 · 0 评论 -
magma build system 分析 —— Makefile 篇 02 记
编译 magm原创 2023-02-13 18:46:02 · 241 阅读 · 0 评论 -
magma build system 分析 —— Makefile 篇 01 记
magma的构建系统分析,makefile系统原创 2023-02-13 17:59:43 · 277 阅读 · 0 评论 -
VS Code 一键删除所有注释,仨健格式化全部代码,一键去除行尾空格空白
VS code的基本使用原创 2023-02-08 17:49:02 · 8394 阅读 · 6 评论 -
cuda C++ cmake makefile
cuda c++ cmake makefile原创 2022-12-15 11:29:29 · 263 阅读 · 0 评论 -
cublasCgetrfBatched cublasCgetriBatched sample
cublasCgetrf原创 2022-11-12 22:05:39 · 313 阅读 · 0 评论 -
ubuntu 18.04 中 编译 FasterTransformer,与缺少安装包
fastertransformer nv 提供的inference 示例,基于 cublasLt, nccl gpu通信库原创 2022-07-17 15:28:13 · 825 阅读 · 0 评论 -
常用 c++ github 项目汇总
GitHub - fmtlib/fmt: A modern formatting library原创 2022-05-27 15:58:14 · 748 阅读 · 0 评论 -
编译生成 cubin 并用 cuobjdump 查看相关汇编语言和 PTX 信息
一、kernel 源代码kernel 文件名:vectorAddKernel.cu__global__ voidvectorAdd(const float *A, const float *B, float *C, int numElements){ int i = blockDim.x * blockIdx.x + threadIdx.x; if (i < numElements) { C[i] = A[i] + B[i]; }}原创 2022-05-17 23:28:02 · 2802 阅读 · 0 评论 -
LLVM IR 即 LLVM Language Reference Manual 15 翻译: 001节
AbstractThis document is a reference manual for the LLVM assembly language. LLVM is a Static Single Assignment (SSA) based representation that provides type safety, low-level operations, flexibility, and the capability of representing ‘all’ high-level la翻译 2022-05-05 23:56:40 · 172 阅读 · 0 评论 -
【无标题】
当你在linux下写C/C++代码的时候,是不是会遇到许多编译链接的问题? 时不时报个glibc,gcc,g++等相关的错误? 很多时候都无从下手,而且比较混乱。 这也是编译链接过程中经常出现的问题。这篇文章不是去介绍如何编译链接,而是理清编译链接过程中碰到的一些概念和出现的问题。尤其是,libc,glib,glibc,eglibc,libc++,libstdc++,gcc,g++。从libc说起。libc是Linux下原来的标准C库,也就是当初写hello world时包含的头文件#incl转载 2022-05-04 03:28:43 · 84 阅读 · 0 评论 -
详解llvm的cmake构建系统
Building LLVM with CMake — LLVM 15.0.0git documentationhttps://llvm.org/docs/CMake.html原创 2022-05-03 14:51:29 · 711 阅读 · 0 评论 -
cuda 下载和文档 cuda documents and download archive
cuda toolkits download:CUDA Toolkit Archive | NVIDIA DeveloperPrevious releases of the CUDA Toolkit, GPU Computing SDK, documentation and developer drivers can be found using the links below. Please select the release you want from the list below, an...原创 2022-05-03 02:41:11 · 715 阅读 · 0 评论 -
thrust STL 及 cub 官方测试用例的编译 build
cub项目github网址:GitHub - NVIDIA/cub: Cooperative primitives for CUDA C++.# Clone Thrust and CUB from Github. CUB is located in Thrust's# `dependencies/cub` submodule.git clone --recursive https://github.com/NVIDIA/thrust.gitcd thrust# Create buil原创 2022-05-02 04:16:50 · 2124 阅读 · 0 评论 -
install cuda in a new Ubuntu 20.4 LTS for Geforce rtx 2080Ti
1 lsmod | grep nouveau 2 uname -r 9 sudo cp /etc/apt/sources.list /etc/apt/sources.list.backupLL 11 sudo gedit /etc/apt/sources.list 12 sudo apt-get update 14 sudo apt-get install net-tools 15 ifconfig 18 sudo apt ...原创 2022-05-01 00:37:20 · 776 阅读 · 0 评论 -
借 __attribute__ 引入 The GNU C Reference Manual
__attribute__ 是 GNU C 规范的一个编译期关键字;话题文档主页:The GNU C Reference Manual - GNU Project - Free Software Foundation在一般的Linux中,在文件 /usr/include/crt/host_defines.h的70多行处有这么一个定义:#define __align__(n) \ __attribute__((aligned(n)))在这个文件的前面几行有如下信息:原创 2022-02-20 17:56:45 · 654 阅读 · 0 评论 -
最简示例 简介洗牌函数 之 __shfl_sync() cuda 之 shuffle
虽然叫做洗牌函数,但是效果只是跟真正的洗牌有点像,但还是不一样。扑克牌不可以复制,但这里的shuffle函数很多时候会复制牌值。这个函数具有广播功能,当同一个warp内的其他线程想获得某一个特定线程中的某个局部变量的值时,使用__shfl_sync()。__shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9线程的 value变量的值, return 广播给其他线程#include <cuda_runtime.h>//#inc原创 2022-02-06 20:06:13 · 4235 阅读 · 0 评论 -
一个使用cublasSgetrfBatched计算逆矩阵的示例
//mat_inv.cu#include <stdio.h>#include <stdlib.h>#include <cublas_v2.h>#include<math.h>#define cudacall(call) \ ...原创 2021-12-20 00:32:49 · 704 阅读 · 0 评论 -
一个简介的简洁的cublasSgetrfBatched和cublasSgetriBatched示例
放入一个能够编译cublas函数的环境中运行:#include <stdio.h>#include <stdlib.h>#include <string.h>/* Includes, cuda */#include <cublas_v2.h>#include <cuda_runtime.h>float* d_Get3DInv(float* L, int n, int J){ cublasHandle_t cu原创 2021-12-19 01:35:49 · 956 阅读 · 0 评论 -
一个简洁的cublasSmatinvBatched应用示例
放入一个cuBLAS sample的文件中替代运行:一个简介的cublasSmatinvBatched 示例:/* Includes, system */#include <stdio.h>#include <stdlib.h>#include <string.h>/* Includes, cuda */#include <cublas_v2.h>#include <cuda_runtime.h>#include..原创 2021-12-19 01:31:43 · 436 阅读 · 0 评论 -
矩阵的逆 windows 命令行编译
1. 下载源代码:cuda_matrix_inverse/LabProtocol at master · mlech26l/cuda_matrix_inverse · GitHubMatrix Inversion Project for GPU Computing and Architectures - cuda_matrix_inverse/LabProtocol at master · mlech26l/cuda_matrix_inversehttps://github.com/mlech26l/c原创 2021-12-18 11:39:20 · 148 阅读 · 0 评论 -
cuda 矩阵乘法,从最容易理解到算得最快(第二版源码-tile机制+共享内存)
下面我们仅仅引入tiling方法,先分析一下能够减少多少次对全局存储区的访问。当M=N=K=4096时,用第一版的代码,忽略cache的缓存时,需要从全局存储区读取2*(4096^3)个float变量。原创 2021-10-07 18:03:07 · 1394 阅读 · 0 评论 -
cuda 矩阵乘法,从最容易理解到算得最快(第一版源码)
C是行主序,A,B是列主序,一维化地存储在数组里,并copy到GPU的全局内存中。一. 设计一个最容易理解的矩阵乘法的CUDA实现一个实现,一说就能让人懂得代码实现,也是一项挺难的任务。尝试实现如下:设置grid是一维即gridDim.y=gridDim.z=1 默认值;gridDim.x=MP的个数,比如RTX 3060含30个MP(即SM),V100含80个MP;于是,在不同的平台里,分别,gridDim.x=30或80;设置block也是一维在 RTX ...原创 2021-10-05 12:29:44 · 742 阅读 · 0 评论 -
在Ubuntu 20.04上成功安装 rtx 3060 notebook Nvidia cuda 和基本图形驱动
cuda Toolkits中包含了对应的图形驱动,所以只需要安装CUDA,顺便就安装了基本的显卡驱动最好在新笔记本上安装,经常会失败,重装Ubuntu也不怕丢失重要数据。为了保存用户数据,至少把硬盘分为3个区:1. swap 32GB;2. / 100GB; //估计够用,保险起见,我分了300GB给/3. /home 1.5TB; ...原创 2021-10-02 11:54:47 · 3565 阅读 · 5 评论 -
精通SuiteSparse应用与架构01 compile and install
精通SuiteSparse应用与架构01原创 2021-08-23 00:37:25 · 416 阅读 · 0 评论 -
THE MNIST DATABASE of handwritten digits
http://yann.lecun.com/exdb/mnist/转载 2018-05-10 17:05:22 · 1511 阅读 · 0 评论 -
这个cuda教程不错,一个链接
http://supercomputingblog.com/cuda-tutorials/原创 2015-03-24 10:57:05 · 610 阅读 · 0 评论 -
摩尔的预言 唯有CUDA才是终极的CPU
作者:小熊在线-宁道奇 .标题:一二三四五六七八九十一二三四五六七八九十标题:摩尔的预言 唯有CUDA才是终极的CPU作者:小熊在线-宁道奇关键词:Intel AMD CPU GPU CUDA Pentium 处理器 摩尔 out-of-order 乱序执行 GeForceFX GPGPU Dirichlet Voronoi Shader BrookGPU GFLOPS s转载 2015-03-05 10:23:59 · 1799 阅读 · 0 评论 -
cudaStreamSynchronize vs CudaDeviceSynchronize vs cudaThreadSynchronize CUDA中的屏障同步
cudaStreamSynchronize vs CudaDeviceSynchronize vs cudaThreadSynchronizeThese are all barriers. Barriers prevent code execution beyond the barrier until some condition is met.cudaDevi转载 2015-03-04 18:43:52 · 2134 阅读 · 0 评论