
分布式与并行计算
鸣王星U+2647
这个作者很懒,什么都没留下…
展开
-
向量相加其三(CUDA+C语言实现)
#include <stdio.h>#include <stdlib.h>#include <sys/time.h>#include <omp.h>#include <immintrin.h>__global__ void vecadd_cuda(int *d_c, int *d_a, int *d_b, int n){...原创 2020-11-10 13:22:18 · 474 阅读 · 0 评论 -
向量相加其二(C串行、OpenMP、OpenMP AVX2实现)
本文实现的加速方法:普通C串行程序使用OpenMP并行化向量计算使用OpenMP和AVX2指令集并行化计算原创 2020-07-07 19:22:02 · 1431 阅读 · 0 评论 -
向量相加其一(Python & Numpy速度对比)
pytorch、tensorflow的底层框架很多地方都是用C语言和GPU加速的其中向量加是最基础的原创 2020-07-06 21:03:20 · 616 阅读 · 0 评论 -
Linux系统下安装NVIDIA显卡驱动+配置CUDA(Ubuntu 18.04.4LTS+NVIDIA-Linux440.82+CUDA10.2)
Linux系统下安装NVIDIA显卡驱动+配置CUDA(Ubuntu 18.04.4LTS+NVIDIA-Linux440.82+CUDA10.2)系统与显卡信息下载CUDA10.2以及其对应版本的NVIDIA显卡驱动禁止集成的nouveau驱动因为上面重启了,所以在这提醒一句,如果反复安装NVIDIA显卡驱动始终有问题,在开机时进入BIOS关闭secure boot卸载原有驱动给驱动.run文件...原创 2020-04-29 16:18:41 · 4135 阅读 · 3 评论