关于warp中遇到Branch Divergence的执行情况

CUDA官方的文档[1]里原文是: "If threads of a warp diverge via a data-dependent conditional branch, the warp serially executes each branch path taken, disabling threads that are not on that path, and when all paths complete, the threads converge back to the same execution path. "请教学长后了解到path taken中taken的意思是和汇编里jump大概意思,也就是说这个path是指分支中需要跳转后的地址(例如if-else分支中else后的代码段就是thepath taken)。按照这个意思的话,当一个warp里的threads遇到分支时,跳到path taken的theads会先同时执行,然后再同时执行threads that are not on that path。

如果是一个32分支的条件语句[2]

if(t==c[0]) {...}
else if(t==c[1]) {...}
else if(t==c[2]) {...}
....
else if(t==c[31]) {...}


threadId为31(最远的else,path taken)的会先执行,然后是30,29,28...0号的线程顺序执行


对于另外一个代码段[2]

int __shared__ var=0;
while (var!=tid) ;  /*注意这里循环体为空*/
/*reconvergence point*/
var++;

按常理来说这段代码应该会正常运行,但是实际运行中会deadlock。文章里给出的解释是“When thread 0 reaches the reconvergence point, the other (serialized) path is executed. Thread 0 cannot continue and increment sharedvar until the rest of the threads also reach the reconvergence point. ”。一开始想不明白为什么thread 0会卡在reconvergence point等待其他线程到达才会继续往下执行,后来谷歌到一遍关于NIVIDIA GPU架构的笔记[3]有句话“When reconvergence point reached, execution switches back to other path (say, not-taken). When reconvergence point reached a second time execution continues at reconvergence instruction and beyond.”大意是说reconvergence point要到达第二次的时候之前的线程才能继续execution下去。这个笔记貌似不是官方的也不清楚作者是追,可信度不知道,但是刚好可以解释出现deadlock的原因,姑且先就这么认为吧,等以后遇到相关问题再继续研究。


在一个CUDA教学的PPT[4]里也提到:"warp内指令时自动同步的,不需要__syncthreads(),不需要if(tid<3)",我的理解是如果warp内遇到分支,则在分支结束后warp会自动同步指令,分支内是按照先taken顺序执行,这样也解释了上面例子为什么会出现deadlock。




参考:

[1] http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html

[2] Demystifying GPU Microarchitecture through Microbenchmarking

[3] www.ece.lsu.edu/gp/notes/set-nv-org.pdf

[4] NVIDA CUDA超大规模并行程序设计训练课程 清华大学邓仰东

标题“51单片机通过MPU6050-DMP获取姿态角例程”解析 “51单片机通过MPU6050-DMP获取姿态角例程”是一个基于51系列单片机(一种常见的8位微控制器)的程序示例,用于读取MPU6050传感器的数据,并通过其内置的数字运动处理器(DMP)计算设备的姿态角(如倾斜角度、旋转角度等)。MPU6050是一款集成三轴加速度计和三轴陀螺仪的六自由度传感器,广泛应用于运动控制和姿态检测领域。该例程利用MPU6050的DMP功能,由DMP处理复杂的运动学算法,例如姿态融合,将加速度计和陀螺仪的数据进行整合,从而提供稳定且实时的姿态估计,减轻主控MCU的计算负担。最终,姿态角数据通过LCD1602显示屏以字符形式可视化展示,为用户提供直观的反馈。 从标签“51单片机 6050”可知,该项目主要涉及51单片机和MPU6050传感器这两个关键硬件组件。51单片机基于8051内核,因编程简单、成本低而被广泛应用;MPU6050作为惯性测量单元(IMU),可测量设备的线性和角速度。文件名“51-DMP-NET”可能表示这是一个与51单片机及DMP相关的网络资源或代码库,其中可能包含C语言等适合51单片机的编程语言的源代码、配置文件、用户手册、示例程序,以及可能的调试工具或IDE项目文件。 实现该项目需以下步骤:首先是硬件连接,将51单片机与MPU6050通过I2C接口正确连接,同时将LCD1602连接到51单片机的串行数据线和控制线上;接着是初始化设置,配置51单片机的I/O端口,初始化I2C通信协议,设置MPU6050的工作模式和数据输出速率;然后是DMP配置,启用MPU6050的DMP功能,加载预编译的DMP固件,并设置DMP输出数据的中断;之后是数据读取,通过中断服务程序从DMP接收姿态角数据,数据通常以四元数或欧拉角形式呈现;再接着是数据显示,将姿态角数据转换为可读的度数格
MathorCup高校数学建模挑战赛是一项旨在提升学生数学应用、创新和团队协作能力的年度竞赛。参赛团队需在规定时间内解决实际问题,运用数学建模方法进行分析并提出解决方案。2021年第十一届比赛的D题就是一个典型例子。 MATLAB是解决这类问题的常用工具。它是一款强大的数值计算和编程软件,广泛应用于数学建模、数据分析和科学计算。MATLAB拥有丰富的函数库,涵盖线性代数、统计分析、优化算法、信号处理等多种数学操作,方便参赛者构建模型和实现算法。 在提供的文件列表中,有几个关键文件: d题论文(1).docx:这可能是参赛队伍对D题的解答报告,详细记录了他们对问题的理解、建模过程、求解方法和结果分析。 D_1.m、ratio.m、importfile.m、Untitled.m、changf.m、pailiezuhe.m、huitu.m:这些是MATLAB源代码文件,每个文件可能对应一个特定的计算步骤或功能。例如: D_1.m 可能是主要的建模代码; ratio.m 可能用于计算某种比例或比率; importfile.m 可能用于导入数据; Untitled.m 可能是未命名的脚本,包含临时或测试代码; changf.m 可能涉及函数变换; pailiezuhe.m 可能与矩阵的排列组合相关; huitu.m 可能用于绘制回路图或流程图。 matlab111.mat:这是一个MATLAB数据文件,存储了变量或矩阵等数据,可能用于后续计算或分析。 D-date.mat:这个文件可能包含与D题相关的特定日期数据,或是模拟过程中用到的时间序列数据。 从这些文件可以推测,参赛队伍可能利用MATLAB完成了数据预处理、模型构建、数值模拟和结果可视化等一系列工作。然而,具体的建模细节和解决方案需要查看解压后的文件内容才能深入了解。 在数学建模过程中,团队需深入理解问题本质,选择合适的数学模
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值