- 博客(5)
- 收藏
- 关注
原创 基于FPGA异构计算快速构建高性能图像处理解决方案
用户在数据中心进行方案集成过程中,传统数据中心的设计环境是软件,把FPGA导入到数据中心之后,对方案的可用性有非常高的要求。涉及图片部分的产品有几个典型的应用场景,第一是缩略图的场景,整个流程包括图片的上传、JPEG解码、缩放、JPEG编码和推送客户端,很好的适配了以下几种典型场景:第一是手机的云相册,客户上传大量的图片到云端,在不同的终端上浏览上传的图片,在浏览时不需要把原图转成各种尺寸的图像推送到客户端,只需要在线算出不同的尺寸推送到客户端,在电商平台和社交网络上都大量涉及到这样的应用场景。
2023-06-12 14:52:56
570
原创 用于图像处理的高性能计算框架
Integrated Performance Primitives,Intel 提供的高性能多媒体函数库,包含许多从底层优化的函数,涵盖包括图像处理在内的多种应用,其接口形式与NPP库类似。典型地,对于图像处理中的for循环(逐像素)处理,CUDA可以通过编写内核函数完成多CUDA核的并行加速,而TBB则可以通过其特定接口完成多CPU的并行处理加速。最后提供一下作者使用TBB加速的关键代码段,主要完成的是彩色图像的色彩校正,在Xeon E3-1230 v2平台(4核心8线程)上,算法执行速度提升明显。
2023-06-12 11:02:13
262
原创 关于高性能计算(并行计算)的知识记录汇总(OpenMP、OpenCL、CUDA、TBB)
所以OpenCL的程序主线程,会根据系统中是几个核的多核CPU,那种架构的CPU(arm或者x86),有没有GPU,哪种GPU?intel,nvidia,amd等多家硬件厂商支持OpenCL,但是同时也有自己的小九九,比如nvidia的cuda,就提供了针对自己的更多的功能,而且函数上据说也更为高级。他的基本原理就是系统里边内置一个类似编译器,好像llvm,API的东西,软件写完的代码只有到最后的硬件执行的时候进行最终编译,这个编译过程似乎是通过系统里边的硬件驱动Driver,现在都还需要另外安装,
2023-06-12 10:27:28
1166
原创 大数组累计求和 - CPU、OpenMP、CUDA三种方法的性能对比
版权声明:本文为优快云博主「BeALinuxGraphicCoder」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。这很好理解,CUDA就是为并行计算而生的,OpenMP相当于提供了一个便捷创建多线程的方法,运行结果:CPU和GPU代码是并行的,所以不能简单用CPU上的时间函数来计算GPU的开销。两个核函数sum()和sum2()本身的开销很小,不过cudaMalloc和cudaMemcpy()的开销却很大。方法三:使用CUDA计算,归约思想。
2023-06-06 17:37:56
411
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人