41、通用GPU编程与线性方程组求解方法

root9

于 2025-11-03 11:28:13 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：并行编程：从多核到集群文章标签： GPU编程 OpenCL CUDA

本文链接：https://blog.youkuaiyun.com/root9/article/details/154638680

并行编程：从多核到集群专栏收录该内容

48 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

通用GPU编程与线性方程组求解方法

1. 通用GPU编程

在通用GPU编程中，我们可以通过OpenCL内核来实现向量加法。以下是一个实现两个向量 a 和 b 相加，结果存储在向量 c 中的OpenCL内核代码：

kernel void vectoradd ( global const float * a,
                        global const float * b,
                        global const float * c) {
    int id = get_global_id(0);
    c[id] = a[id] + b[id];
}

这个内核函数为每个线程分配一个唯一的全局ID，并将向量 a 和 b 中对应位置的元素相加，结果存储在向量 c 的相应位置。

同时，书中还给出了一些练习题，帮助我们巩固所学知识：
1. 练习题7.1 ：考虑计算两个向量 a 和 b 点积的程序，假设在NVIDIA GTX 680 GPU上执行。需要回答以下问题：
- 程序执行时使用的线程总数。
- 一个线程束中的线程数量。
- 一个线程块中的线程数量。
2. 练习题7.2 ：根据图中两个向量 a 和 b 点积的说明，针对 N = 4·16 和执行配置 scal_prod <<< 4,4 >>> 对程序执行进行适配。绘制相应的执行配置图，计算总共使用的线程数，确定线程 tid = 4 访问的 a 和 b 的元素，以及计算每个块的部分点积所需的步骤数。
3. 练习题7.3 ：编写一个完整的CUDA程序，用于实现两个向量 a 和 b 的加法，结果存储在向量 c 中。具体步骤如下：
- 在主机程序中初始化向量 a 和 b 。
- 使用 cudaMalloc() 在GPU的全局内存中分配向量 ad 、 bd 和 cd 。
- 使用 cudaMemcpy() 将向量 a 和 b 的内容分别初始化到 ad 和 bd 中。
- 设计内核函数，为 ad 和 bd 中两个元素的相加分配一个单独的线程。
- 内核函数执行完成后，将 cd 中计算的结果复制回主机并打印输出。
4. 练习题7.4 ：编写一个完整的CUDA程序，用于计算矩阵 - 向量乘积 c = A · b ，其中 A 是 n × m 矩阵， b 是大小为 m 的向量，结果向量 c 的长度为 n 。
- 全局内存版本 ：内核函数在GPU的全局内存中执行所有计算。为结果向量 c 的每个元素分配一个单独的线程，每个线程计算矩阵 A 的一行与向量 b 的点积，并将结果写入向量 c 的相应位置。
- 共享内存版本 ：利用所有点积计算都使用相同向量 b 这一事实。在共享内存中定义一个大小为 BLOCK_SIZE 的向量 bds ，使用外循环遍历输入向量 b 的块，在每次外循环迭代中，不同线程处理 b 的一个块。每个线程将 b 的一个适当元素加载到共享向量 bds 中，然后使用 bds 中的 b 块计算部分点积。需要进行同步操作，以确保在实际计算开始之前 bds 的加载完成。

2. 线性方程组求解方法

线性方程组的求解是数值线性代数中的基本算法，也是许多科学模拟的基本组成部分。我们主要考虑形如 Ax = b 的线性方程组，其中 A 是 n × n 的实数矩阵， b 是大小为 n 的向量， x 是待求解的未知向量。

线性方程组的求解方法分为直接法和迭代法：
| 方法类型 | 特点 | 适用情况 |
| ---- | ---- | ---- |
| 直接法 | 在固定的步骤内确定精确解（除舍入误差外），步骤数取决于系统的大小 n 。常见的有消元法和分解法。 | 适用于对解的精度要求较高，且矩阵规模不是特别大的情况。 |
| 迭代法 | 从一个起始向量开始，计算一系列向量，这些向量收敛到精确解。当近似解达到可接受的精度时停止计算。 | 通常比直接法更快，并行实现简单。对于稀疏矩阵（许多元素为零）有优势，可避免矩阵中非零元素的填充。但需要线性方程组满足一些数学性质以保证收敛到精确解。 |

3. 高斯消元法

高斯消元法是一种经典的直接求解线性方程组的方法，它包括两个阶段：前向消元和回代。

3.1 高斯消元与LU分解

线性方程组 Ax = b 可以完整地表示为：
[
\begin{cases}
a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1 \
\cdots \
a_{i1}x_1 + a_{i2}x_2 + \cdots + a_{in}x_n = b_i \
\cdots \
a_{n1}x_1 + a_{n2}x_2 + \cdots + a_{nn}x_n = b_n
\end{cases}
]
- 前向消元 ：将线性方程组 Ax = b 转换为上三角形式的线性方程组 Ux = b′ 。具体步骤是通过对矩阵 A 和向量 b 进行一系列变换，经过 n - 1 步，将矩阵 A 转换为上三角矩阵 A(n) 。在第 k 步，矩阵 A(k) 的前 k - 1 行与 A(k - 1) 相同，前 k - 1 列中对角线元素以下的所有元素为零。矩阵 A(k + 1) 和向量 b(k + 1) 通过从矩阵 A 的第 k + 1 行到第 n 行减去矩阵 A(k) 的第 k 行的适当倍数，以及从向量 b 的第 k + 1 个元素到第 n 个元素减去向量 b(k) 的第 k 个元素的适当倍数来计算。消元因子 l_{ik} 定义为：
[
l_{ik} = \frac{a_{ik}^{(k)}}{a_{kk}^{(k)}}, \quad i = k + 1, \cdots, n
]
矩阵 A(k + 1) 的元素和向量 b(k + 1) 的元素计算如下：
[
a_{ij}^{(k + 1)} = a_{ij}^{(k)} - l_{ik}a_{kj}^{(k)}
]
[
b_{i}^{(k + 1)} = b_{i}^{(k)} - l_{ik}b_{k}^{(k)}
]
其中 k < j ≤ n 且 k < i ≤ n 。
- 回代：使用上三角方程组 A(n)x = b(n) 计算结果向量 x ，计算顺序为 x_n, x_{n - 1}, \cdots, x_1 ，计算公式为：
[
x_k = \frac{1}{a_{kk}^{(n)}}\left(b_{k}^{(n)} - \sum_{j = k + 1}^{n}a_{kj}^{(n)}x_j\right)
]

以下是一个用C语言实现的顺序高斯消元的程序片段：

double *gauss_sequential (double **a, double *b)
{
    double *x, sum, l[MAX_SIZE];
    int i,j,k,r;
    x = (double *) malloc(n * sizeof(double));
    for (k = 0; k < n-1; k++) { /* Forward elimination */
        r = max_col(a,k);
        if (k != r) exchange_row(a,b,r,k);
        for (i=k+1; i < n; i++) {
            l[i] = a[i][k]/a[k][k];
            for (j=k+1; j < n; j++)
                a[i][j] = a[i][j] - l[i] * a[k][j];
            b[i] = b[i] - l[i] * b[k];
        }
    }
    for (k = n-1; k >= 0; k--) { /* Backward substitution */
        sum = 0.0;
        for (j=k+1; j < n; j++)
            sum = sum + a[k][j] * x[j];
        x[k] = 1/a[k][k] * (b[k] - sum);
    }
    return x;
}

该程序通过前向消元和回代两个阶段求解线性方程组。前向消元过程中，通过选择主元避免除数为零的情况，并计算消元因子更新矩阵和向量。回代过程中，根据上三角矩阵求解未知向量 x 。

3.2 LU分解与三角化

矩阵 A 可以表示为上三角矩阵 U = A(n) 和下三角矩阵 L 的乘积，即 A = L·U ，这种矩阵表示称为三角化或LU分解。
[
L =
\begin{bmatrix}
1 & 0 & 0 & \cdots & 0 \
l_{21} & 1 & 0 & \cdots & 0 \
l_{31} & l_{32} & 1 & 0 & \cdots \
\vdots & \vdots & \vdots & \ddots & 0 \
l_{n1} & l_{n2} & l_{n3} & \cdots & 1
\end{bmatrix}
]
使用LU分解，线性方程组 Ax = b 可以重写为 Ax = LA(n)x = Ly = b ，其中 y = A(n)x 。求解过程分为两步：
1. 通过前向替换求解三角方程组 Ly = b 得到向量 y 。
2. 通过回代求解上三角方程组 A(n)x = y 得到向量 x 。

LU分解的优势在于， L 和 U 的分解只需进行一次，可用于求解多个具有相同矩阵 A 和不同右侧向量 b 的线性方程组，而无需重复消元过程。

3.3 选主元

前向消元和LU分解需要除以 a_{kk}^{(k)} ，因此这些方法仅在 a_{kk}^{(k)} ≠ 0 时适用。即使矩阵 A 的行列式不为零，线性方程组 Ax = y 可解，但当 a_{kk}^{(k)} 为零元素时，可能不存在 A = LU 的分解。对于可解的线性方程组，存在一个由矩阵 A 的行置换得到的矩阵，使得可以进行LU分解，即 BA = LU ，其中 B 是描述矩阵 A 行置换的置换矩阵。

选主元策略用于在消元过程中选择合适的主元元素，常见的策略有列选主元、行选主元和全选主元：
| 选主元策略 | 方法 | 特点 |
| ---- | ---- | ---- |
| 列选主元 | 考虑列 k 中从第 k 行到第 n 行的元素，确定绝对值最大的元素 a_{rk}^{(k)} ，如果 r ≠ k ，则交换矩阵 A(k) 的第 r 行和第 k 行以及向量 b(k) 的第 r 个和第 k 个元素。 | 计算量较小，能有效避免除数为零和数值不稳定问题。 |
| 行选主元 | 在矩阵 A(k) 的第 k 行中，从第 k 列到第 n 列的元素中确定绝对值最大的元素 a_{kr}^{(k)} ，如果 r ≠ k ，则交换矩阵 A(k) 的第 k 列和第 r 列，这相当于交换向量 x 中未知量 x_k 和 x_r 的编号。 | 适用于某些特定问题，可在一定程度上改善数值稳定性。 |
| 全选主元 | 在矩阵 A(k) 的子矩阵 (a_{ij}^{(k)}) （ k ≤ i, j ≤ n ）中确定绝对值最大的元素，根据 i ≠ k 和 j ≠ k 交换矩阵 A(k) 的列和行。 | 能最大程度保证数值稳定性，但计算量较大，可能破坏矩阵的特殊结构。 |

在实际应用中，通常使用行选主元或列选主元，而不是全选主元，因为它们的计算时间较短，且全选主元可能会破坏矩阵的特殊结构，如带状结构。选主元的实现通常避免在内存中实际交换行或列，而是使用指向矩阵当前行的索引向量。虽然索引访问矩阵元素的开销较大，但总体上比在每个消元步骤中移动整行更高效。当编程语言支持时，使用动态数据存储，将矩阵的行存储为单独的向量，并通过指向这些行的向量进行访问，可能会实现更高效的算法。这样，矩阵元素仍然可以使用二维索引表达式进行访问，而行的交换对应于指针的简单交换。

4. 并行行循环实现

高斯消元法的并行实现基于矩阵 A 和矩阵序列 A(k) （ k = 2, ..., n ）的数据分布，常见的数据分布方式有行导向、列导向和棋盘式分布。这里我们考虑行导向的分布。

从矩阵 A(k) 的结构可以看出，块式行导向的数据分布由于负载不平衡而不太合适。对于块式行导向分布，处理器 Pq （ 1 ≤ q ≤ p ）拥有行 (q - 1)·n/p + 1 到 q·n/p ，因此在计算 A(k) 且 k = q·n/p + 1 之后，该处理器将没有计算任务而闲置。而行循环分布则具有更好的负载平衡，处理器 Pq （ 1 ≤ q ≤ p ）拥有行 q 、 q + p 、 q + 2p 等，即它拥有所有满足 1 ≤ i ≤ n 且 q = ((i - 1) mod p) + 1 的行。只有在前 n - p 个阶段之后，处理器才会开始闲置，这对于 p ≪ n 是合理的。

因此，我们考虑使用行循环分布的矩阵 A 和列导向的选主元来实现高斯消元法的并行化。前向消元的一步，即根据给定的 A(k) 和 b(k) 计算 A(k + 1) 和 b(k + 1) ，包括以下计算和通信阶段：

graph LR
    A[确定局部主元] --> B[确定全局主元]
    B --> C[交换主元行]
    C --> D[分布主元行]
    D --> E[计算消元因子]
    E --> F[计算矩阵元素]

确定局部主元 ：每个处理器考虑其在第 k 列中从第 k 行到第 n 行的局部元素，确定绝对值最大的元素（及其位置）。
确定全局主元 ：全局主元是绝对值最大的局部主元。通过使用最大值操作作为归约的单累积操作来确定全局主元，该全局通信操作的根处理器将结果发送给所有其他处理器。
交换主元行 ：如果主元元素 a_{rk}^{(k)} 满足 k ≠ r ，则需要交换处理器 Pq 拥有的第 k 行和处理器 Pq′ 拥有的主元行 r 。如果 q = q′ ，则处理器 Pq 可以在本地进行交换；如果 q ≠ q′ ，则需要使用单传输操作进行通信。同时，相应地交换元素 b_k 和 b_r 。
分布主元行 ：由于所有处理器在局部消元操作中都需要主元行（现在是第 k 行），处理器 Pq 将第 k 行的元素 a_{kk}^{(k)}, ..., a_{kn}^{(k)} 和向量 b(k) 的第 k 个元素发送给所有其他处理器。
计算消元因子 ：每个处理器根据公式 l_{ik} = a_{ik}^{(k)} / a_{kk}^{(k)} 为其拥有的行 i 本地计算消元因子 l_{ik} 。
计算矩阵元素 ：每个处理器根据公式 a_{ij}^{(k + 1)} = a_{ij}^{(k)} - l_{ik}a_{kj}^{(k)} 和 b_{i}^{(k + 1)} = b_{i}^{(k)} - l_{ik}b_{k}^{(k)} ，使用其本地的 A(k) 和 b(k) 元素计算 A(k + 1) 和 b(k + 1) 的元素。

回代过程中求解向量 x 的计算本质上是顺序的，因为值 x_k （ k = n, ..., 1 ）相互依赖，需要依次计算。在第 k 步，拥有第 k 行的处理器 Pq 根据公式 x_k = (b_{k}^{(n)} - ∑_{j = k + 1}^{n}a_{kj}^{(n)}x_j) / a_{kk}^{(n)} 计算 x_k 的值，并通过单广播操作将该值发送给所有其他处理器。

以下是一个用C语言和MPI操作实现的行循环分布的高斯消元法的程序片段：

double *gauss_cyclic (double **a, double *b)
{
    double *x, l[MAX_SIZE], *buf;
    int i,j,k,r, tag=42;
    MPI_Status status;
    struct { double val; int node; } z,y;
    x = (double *) malloc(n * sizeof(double));
    buf = (double *) malloc((n+1) * sizeof(double));
    for (k=0 ; k<n-1 ; k++) { /* Forward elimination */
        r = max_col_loc(a,k);
        z.node = me;
        if (r != -1) z.val = fabs(a[r][k]); else z.val = 0.0;
        MPI_Allreduce(&z,&y,1,MPI_DOUBLE_INT,MPI_MAXLOC,MPI_COMM_WORLD);
        if (k % p == y.node){ /* Pivot row and row k are on the same processor */
            if (k % p == me) {
                if (a[k][k] != y.val) exchange_row(a,b,r,k);
                copy_row(a,b,k,buf);
            }
        }
        else /* Pivot row and row k are owned by different processors */
            if (k % p == me) {
                copy_row(a,b,k,buf);
                MPI_Send(buf+k,n-k+1,MPI_DOUBLE,y.node,tag,
                         MPI_COMM_WORLD);
            }
            else if (y.node == me) {
                MPI_Recv(buf+k,n-k+1,MPI_DOUBLE,MPI_ANY_SOURCE,
                         tag,MPI_COMM_WORLD,&status);
                copy_exchange_row(a,b,r,buf,k);
            }
        MPI_Bcast(buf+k,n-k+1,MPI_DOUBLE,y.node,MPI_COMM_WORLD);
        if ((k % p != y.node) && (k % p == me)) copy_back_row(a,b,buf,k);
        i = k+1; while (i % p != me) i++;
        for ( ; i<n; i+=p) {
            l[i] = a[i][k] / buf[k];
            for (j=k+1; j<n; j++)
                a[i][j] = a[i][j] - l[i]*buf[j];
            b[i] = b[i] - l[i]*buf[n];
        }
    }
    for (k=n-1; k>=0; k--) { /* Backward substitution */
        if (k % p == me) {
            sum = 0.0;
            for (j=k+1; j < n; j++)
                sum = sum + a[k][j] * x[j];
            x[k] = 1/a[k][k] * (b[k] - sum); }
        MPI_Bcast(&x[k],1,MPI_DOUBLE,k%p,MPI_COMM_WORLD);
    }
    return x;
}

该程序通过MPI操作实现了并行的高斯消元法，包括前向消元和回代过程。在每个消元步骤中，通过局部主元确定、全局主元确定、主元行交换、主元行分布、消元因子计算和矩阵元素计算等步骤，完成矩阵的消元操作。回代过程中，每个处理器计算自己负责的行的 x 值，并通过广播操作将结果传递给其他处理器。

通过以上内容，我们详细介绍了通用GPU编程中的向量加法实现以及线性方程组求解的高斯消元法及其并行实现，这些方法和技术在科学计算和工程应用中具有重要的意义。

通用GPU编程与线性方程组求解方法

5. 线性方程组其他求解方法概述

除了高斯消元法这种直接求解方法外，还有针对特定结构矩阵的直接解法以及迭代解法。

5.1 特定结构矩阵的直接解法

对于具有三对角结构或带状矩阵的线性方程组，有一些特殊的直接解法，如循环约简和递归倍增。这些方法利用了矩阵的特殊结构，能够更高效地求解线性方程组。例如，三对角矩阵在线性方程组中较为常见，其非零元素集中在主对角线、上对角线和下对角线上。循环约简和递归倍增方法通过巧妙的计算步骤，减少了不必要的计算量，提高了求解效率。

5.2 迭代解法

迭代解法是通过从一个初始向量开始，不断迭代计算一系列向量，使其逐渐收敛到精确解。当近似解达到可接受的精度时，迭代过程停止。常见的迭代解法有雅可比迭代法、高斯 - 赛德尔迭代法等。迭代解法的优点是对于大规模稀疏矩阵非常有效，因为它避免了直接解法中可能出现的矩阵填充问题。同时，迭代解法的并行实现相对简单，适合在并行计算环境中使用。但需要注意的是，迭代解法需要线性方程组满足一定的数学性质，才能保证收敛到精确解。

6. 共轭梯度法

共轭梯度法是一种用于求解对称正定线性方程组的迭代方法。对于线性方程组 Ax = b ，其中 A 是对称正定矩阵，共轭梯度法通过迭代的方式逐步逼近精确解。

共轭梯度法的基本步骤如下：
1. 选择一个初始向量 x0 。
2. 计算初始残差 r0 = b - Ax0 ，并令 p0 = r0 。
3. 进行迭代：
- 计算步长 αk = (rk^T rk) / (pk^T Apk) 。
- 更新解向量 xk+1 = xk + αk pk 。
- 计算新的残差 rk+1 = rk - αk Apk 。
- 计算共轭方向系数 βk = (rk+1^T rk+1) / (rk^T rk) 。
- 更新共轭方向 pk+1 = rk+1 + βk pk 。
4. 重复步骤3，直到残差的范数小于某个预设的阈值。

共轭梯度法的优点是收敛速度快，尤其是对于大型稀疏对称正定矩阵。它在每次迭代中只需要进行矩阵向量乘法和向量内积运算，计算量相对较小。同时，共轭梯度法具有良好的数值稳定性，能够有效地处理病态矩阵。

7. 乔列斯基分解

乔列斯基分解是一种用于求解对称正定线性方程组的直接方法。对于对称正定矩阵 A ，可以将其分解为 A = LL^T ，其中 L 是下三角矩阵。

乔列斯基分解的步骤如下：
1. 初始化下三角矩阵 L 。
2. 对于 i = 1 到 n ：
- 计算 Lii = sqrt(Aii - ∑(k = 1 to i - 1) Lik^2) 。
- 对于 j = i + 1 到 n ：
- 计算 Lji = (Aji - ∑(k = 1 to i - 1) Ljk Lik) / Lii 。

通过乔列斯基分解，线性方程组 Ax = b 可以转化为两个三角方程组 Ly = b 和 L^T x = y ，分别通过前向替换和回代求解。乔列斯基分解的优点是计算效率高，尤其适用于对称正定矩阵。但需要注意的是，矩阵 A 必须是对称正定的，否则分解可能会失败。

8. 不同求解方法的比较

不同的线性方程组求解方法适用于不同的场景，以下是一个简单的比较表格：
| 求解方法 | 适用矩阵类型 | 优点 | 缺点 |
| ---- | ---- | ---- | ---- |
| 高斯消元法 | 一般矩阵 | 能得到精确解（除舍入误差），适用于小规模矩阵 | 计算复杂度高，对于大规模矩阵效率低 |
| 共轭梯度法 | 对称正定矩阵 | 收敛速度快，适合大规模稀疏矩阵 | 只适用于对称正定矩阵 |
| 乔列斯基分解 | 对称正定矩阵 | 计算效率高 | 要求矩阵对称正定，否则分解失败 |
| 迭代解法 | 大规模稀疏矩阵 | 避免矩阵填充，并行实现简单 | 需要满足收敛条件，收敛速度可能较慢 |

9. 总结与展望

在科学计算和工程应用中，线性方程组的求解是一个核心问题。不同的求解方法各有优缺点，需要根据矩阵的特点和问题的要求选择合适的方法。通用GPU编程为线性方程组的求解提供了并行计算的能力，能够显著提高计算效率。

未来，随着计算机硬件的不断发展，如GPU性能的进一步提升和量子计算的兴起，线性方程组的求解方法可能会有新的突破。同时，对于大规模、高维、复杂结构的线性方程组，如何设计更高效、更稳定的求解算法，仍然是一个具有挑战性的研究方向。我们可以期待在这些领域取得更多的研究成果，为科学和工程领域的发展提供更强大的计算支持。

在实际应用中，我们可以根据具体问题的特点，综合运用不同的求解方法和并行计算技术，以达到最佳的求解效果。例如，对于大规模稀疏对称正定矩阵，可以优先考虑共轭梯度法，并结合GPU并行计算加速求解过程。对于小规模一般矩阵，则可以使用高斯消元法得到精确解。通过不断探索和创新，我们能够更好地解决各种线性方程组求解问题，推动科学和工程领域的发展。

graph LR
    A[线性方程组求解问题] --> B{选择求解方法}
    B --> C[高斯消元法]
    B --> D[共轭梯度法]
    B --> E[乔列斯基分解]
    B --> F[迭代解法]
    C --> G[适用于一般矩阵]
    D --> H[适用于对称正定矩阵]
    E --> I[适用于对称正定矩阵]
    F --> J[适用于大规模稀疏矩阵]

通过以上对线性方程组求解方法的介绍，我们可以看到，不同的方法适用于不同的场景，需要根据具体问题进行合理选择。同时，并行计算技术的应用为线性方程组的求解提供了更强大的计算能力，有望在未来的科学和工程领域发挥更大的作用。