convolution是图像处理中最常用的一个算法。
cuda sdk2.3中的convolution separable与以前版本有点不同,用同一个block去处理一系列相邻的图像块。这个不晓得为什么?
在俺的quadroFx5800上跑了跑,不同的ROWS_RESULT_STEPS也有不同的运行速度,不过每次运行的差别比较大。看到论坛里有人说这是为了资源均衡。。。还是不太理解
CUDA卷积分离优化探讨
本文讨论了cudasdk2.3中卷积分离(convolutionseparable)算法的实现细节,特别是使用同一block处理一系列相邻图像块的方法。作者在QuadroFx5800上的实验表明,不同的ROWS_RESULT_STEPS设置会影响运行效率,推测这可能与资源均衡有关。
convolution是图像处理中最常用的一个算法。
cuda sdk2.3中的convolution separable与以前版本有点不同,用同一个block去处理一系列相邻的图像块。这个不晓得为什么?
在俺的quadroFx5800上跑了跑,不同的ROWS_RESULT_STEPS也有不同的运行速度,不过每次运行的差别比较大。看到论坛里有人说这是为了资源均衡。。。还是不太理解
您可能感兴趣的与本文相关的镜像
PyTorch 2.5
PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理
1653
2392

被折叠的 条评论
为什么被折叠?
