Parallel patterns: convolution —— An introduction to stencil computation

卷积：并行计算与模板计算介绍

原创

已于 2024-01-09 16:30:03 修改 · 1.2k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #CUDA

于 2024-01-09 16:29:25 首次发布

在接下来的几章中，我们将讨论一组重要的并行计算模式。这些模式是许多并行应用中出现的广泛并行算法的基础。我们将从卷积开始，这是一种流行的阵列操作，以各种形式用于信号处理、数字记录、图像处理、视频处理和计算机视觉。在这些应用领域，卷积通常作为过滤器执行，将信号和像素转换为更理想的值。我们的图像模糊内核是一个过滤器，可以平滑信号值，以便人们可以看到大画面的趋势。另一个例子是，高斯滤波器是卷积滤波器，可用于锐化图像中对象的边界和边缘。

在高性能计算中，卷积模式通常被称为模板计算，这在求解微分方程的数值方法中广泛出现。它还构成了模拟模型中许多力计算算法的基础。卷积通常涉及每个数据元素上的大量算术运算。对于高清图像和视频等大型数据集，计算量可能非常大。每个输出数据元素都可以相互独立计算，这是并行计算的理想特征。另一方面，在具有一定挑战性的边界条件的输出数据元素之间有相当程度的输入数据共享。这使得卷积成为复杂的tile方法和输入数据暂存方法的重要用例。

7.1 BACKGROUND
卷积是一种数组操作，其中每个输出数据元素是相邻输入元素集合的加权和。加权和计算中使用的权重由输入掩码数组定义，通常称为卷积内核。由于CUDA内核函数和卷积内核之间存在不幸的名称冲突，我们将这些掩码数组称为卷积掩码，以避免混淆。相同的卷积掩码通常用于数组的所有元素。

在这里插入图片描述

在音频数字信号处理中，输入数据为ID形式，并表示采样信号量作为时间函数。图7.1显示了1D数据的卷积示例，其中5元卷积掩码数组M应用于7元输入数组N。我们将遵循C语言惯例，其中N和P元素从0到6索引，M元素从0到4索引。我们使用5元素掩码M的事实意味着每个P元素是由对应位置的N个元素的加权和生成的，左边是两个N个元素，右边是两个N个元素。

例如， P[2] 的值生成为 N[0]（即 N[2-2]）到N[4]（即N[2+2]）的加权和。在这个例子