OpenMP使用的一些陷阱

最新推荐文章于 2025-08-09 15:25:07 发布

原创最新推荐文章于 2025-08-09 15:25:07 发布 · 1.2k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#c++ #算法 #数据结构

C语言编程专栏收录该内容

4 篇文章

订阅专栏

文章讨论了在使用OpenMP进行并行计算时遇到的两个问题。问题一是临界变量导致的结果错误，通过添加#pragmaompcritical或使用reduction子句解决。问题二是由于全局变量导致的并行效率降低，通过重新定义局部变量以避免竞争条件。

文章目录

问题引入

我在写代码的过程中发现使用OpenMP后反而运行速度更慢了，后来查了许多资料发现一些其他的使用陷阱，总结了这篇博文

问题一：临界变量

#include <omp.h>
#include <stdio.h>
int main(){
    int sum=0;
    #pragma omp parallel for num_threads(6)
    for(int i=0;i<100;i++){
        sum+=i;
    }
    printf("%d\n",sum);
}

输出：

为什么不是4950呢，因为sum是临界变量，当多个线程同时对sum写时会相互覆盖。
解决方案
（1）在临界区添加#pragma omp critical

#include <omp.h>
#include <stdio.h>
int main(){
    int sum=0;
    #pragma omp parallel for num_threads(6)
    for(int i=0;i<100;i++){
        #pragma omp critical
        {
            sum+=i;
        }
        
    }
    printf("%d\n",sum);
}

（2）在#pragma omp parallel指令中添加reduction子句，并指定要进行归约的操作和变量。

#include <omp.h>
#include <stdio.h>
int main(){
    int sum=0;
    #pragma omp parallel for num_threads(6) reduction(+:sum)
    for(int i=0;i<100;i++){
            sum+=i;
    }
    printf("%d\n",sum);
}

在这个例子中，reduction子句指定了对变量sum进行加法归约操作。
归约操作就是指满足结合律和交换律的操作例如

 + - * & | ^ max min

都是归约操作。

对于只是归约操作而言方案（2）相对来说更好，方案（1）临界区定义会使得只有一个线程进入临界区，其他线程等待，减慢了速度。
但是对于其他非归约操作，访问临界区需要方案（1）来解决。

问题二：变慢陷阱

	int i,j;
	#pragma omp parallel for
	for(i = 0; i < divs*divs; ++i){
		data d;
		d.shallow = 0;
		d.w = orig.w/divs * size;
		d.h = orig.h/divs * size;
		d.X.rows = orig.X.rows;
		d.X.cols = d.w*d.h*3;
		d.X.vals = calloc(d.X.rows, sizeof(float*));

		d.y = copy_matrix(orig.y);
		#pragma omp parallel for
		for(j = 0; j < orig.X.rows; ++j){
			int x = (i%divs) * orig.w / divs - (d.w - orig.w/divs)/2;
			int y = (i/divs) * orig.h / divs - (d.h - orig.h/divs)/2;
			image im = float_to_image(orig.w, orig.h, 3, orig.X.vals[j]);
			d.X.vals[j] = crop_image(im, x, y, d.w, d.h).data;
		}
		ds[i] = d;
	}

虽然全部核心都被使用但是速度反而比单核时慢，因为提前定义了i和j
解决方案


	#pragma omp parallel for
	for(int i = 0; i < divs*divs; ++i){
		data d;
		d.shallow = 0;
		d.w = orig.w/divs * size;
		d.h = orig.h/divs * size;
		d.X.rows = orig.X.rows;
		d.X.cols = d.w*d.h*3;
		d.X.vals = calloc(d.X.rows, sizeof(float*));

		d.y = copy_matrix(orig.y);
		#pragma omp parallel for
		for(int j = 0; j < orig.X.rows; ++j){
			int x = (i%divs) * orig.w / divs - (d.w - orig.w/divs)/2;
			int y = (i/divs) * orig.h / divs - (d.h - orig.h/divs)/2;
			image im = float_to_image(orig.w, orig.h, 3, orig.X.vals[j]);
			d.X.vals[j] = crop_image(im, x, y, d.w, d.h).data;
		}
		ds[i] = d;
	}