
CUDA
文章平均质量分 66
Carlos橘子柠檬
在读
展开
-
【高性能计算】CUDA编程之OpenCV的应用(教程与代码-4)
imread命令将返回以蓝色、绿色和红色(BGR格式)开头的三个通道处理视频的main函数中需要做的第一件事是创建VideoCapture对象。 GPUCUDA模块中的函数都定义在cv::cuda命名空间中,将设备上配置给图像数据用的显存块作为其参数。gettickcount函数返回启动系统后经过的时间(以毫秒为单位)使用具有CUDA的opencv进行阈值滤波#include <iostream>#include "opencv2/opencv.hpp"int main (in.原创 2022-03-06 14:53:39 · 4145 阅读 · 0 评论 -
【高性能计算】CUDA编程之性能测试与流的概念(教程与代码-3)
4 CUDA高级概念的使用4.1 性能测试与报错处理研究表明:如果块数量是GPU的流多处理器数量的两倍,则会给出最佳性能,不过,块和线程的数量和具体的算法实现有关。块中的线程数量应当被设定等于设备属性中每个块所能支持的最大线程数量,但实际上这些数值只是作为一种基本的准则来说的。常见的内核执行有3个瓶颈:卡在计算瓶颈上,卡在访存上和卡在延迟掩盖上。具体显卡上通过Profiler分析。哪种资源先达到瓶颈,就减少这种资源的使用(计算或者访存),而增加另外一种,并非一味地增加计算,或者减少访存。跨步式原创 2022-03-04 20:42:33 · 954 阅读 · 0 评论 -
【高性能计算】CUDA编程之线程存储与原子操作(教程与代码-2)
3 线程、同步、存储器3.1 线程与存储tid=blockIdx.x(当前块的ID)*blockDim.x(当前块里面的线程数量)+threadIdx.x(当前线程在块中的ID)gridDim.x*blockDim.x来计算,前者代表了本次启动的块的数量,而后者代表了每个块里面的线程数量,然后每次while循环,tid变量加上这个值,向后偏移以得到下个任务的索引所有线程都有一个寄存器堆,它是最快的。共享内存只能被块中的线程访问,但比全局内存块。全局内存是最慢的,但可以被所有的块访问。常量和纹原创 2022-02-25 13:09:01 · 935 阅读 · 0 评论 -
【高性能计算】CUDA编程之环境配置与小试牛刀(教程与代码-1)
前言最近在学习linux环境下的CUDA编程,力求实现AI算法加速应用,整理些许笔记如下,代码经过调试,可以跑通。基础环境为mac本地,通过vscode远程控制ubuntu的开发板。1 CUDA开发环境环境配置Mac检查clang,检查所使用的mac是否自带了clang,敲命令行:clang -v // or clang --versionMacOS为了照顾用户习惯,也可以执行gcc命令,但MacOS10.12以后系统不自带gcc。如果没有的话则去安装,敲命令行:xcode-sele原创 2022-02-23 21:13:27 · 1528 阅读 · 0 评论