(done) 并行计算 CS149 Lecture3 (现代多核处理器2 + ISPC编程抽象) (超线程, 流水线, GPU原理, 内存IO瓶颈, 计算访存指令比例, ISPC)-优快云博客

本文链接：https://blog.youkuaiyun.com/shimly123456/article/details/147029843

url: https://www.bilibili.com/video/BV1du17YfE5G?spm_id_from=333.788.videopod.sections&vd_source=7a1a0bc74158c6993c7355c5490fc600&p=3

现代多核处理器2

如上堂课，超线程技术通过储存不同线程的 execution context，能够在一个线程等待 IO 的时候低成本切换到另一个线程去执行。
在这里插入图片描述

当然，超线程技术有两个成本：
1.CPU内需要有存储空间来储存不同线程的 execution context
2.虽然总体overhead降低了，但对于每个线程各自来说overhead增加了

可以把CPU内的 execution context 分为许多的小份来获得更多的超线程，也可以分为少量的大分来获得更大的 “cache”
在这里插入图片描述

接下来看一个例子：
但计算时间为 3 个周期，IO延迟为12个周期时，一个仅具备超线程的单核处理器需要 5 个线程才能达到 100% 的 CPU 利用率。
在这里插入图片描述

通过改变程序，把计算时间延长到 5个周期，IO延迟缩短为10个周期。
此时，只需要 3 个线程就能让 CPU 利用率达到 100%。
可见，对于超线程技术来说，程序的计算overhead 和 IO overhead 的比例很关键。
在这里插入图片描述

缩短IO访问时间的方式：cache

一个现实的例子：
超标量+SIMD+超线程
在这里插入图片描述

一个能很好利用现代并行处理器的程序有以下特点：
1.有足够的可并行任务去使用所有可用的执行单元
2.这些并行任务应该拥有相同的执行序列
3.并行的任务线程数应该比 ALU数量更多，这样在发生 IO（比如内存IO）时，处理器才能切换到其它线程上来隐藏 stalls
在这里插入图片描述

29min ~ 34min 回顾了之前所学的知识，并把它们和实际案例结合讲解
如下，最简单单核处理器，一次执行一个指令
在这里插入图片描述

超标量core，一次执行两个无依赖的指令
在这里插入图片描述

SIMD core，可执行
在这里插入图片描述

异构处理器，标量+SIMD，可以同时执行一个标量计算和一个SIMD指令，只要这两个指令之间没有依赖。
在这里插入图片描述

超线程核，可以低成本地在两个线程之间切换
在这里插入图片描述

如下是超线程+超标量+SIMD+异构处理器
在这里插入图片描述

能够同时执行两个 thread 的单核处理器
在这里插入图片描述

多核+SIMD+异构+超标量+超线程处理器
需注意，0,1,2,3 这四个线程可能会同时有两个被执行，但绝不可能四个同时被执行
在这里插入图片描述

GPU 的原理和CPU稍有不同
英伟达GPU的原理是，是使用 SIMD ALUs 去执行标量指令。
当所有线程的 PC 一致时，GPU 会使用 SIMD ALUs 同时执行所有线程。
如下图，线程6的 PC 和其它线程不一致，此时 GPU 会忽略掉线程6的执行。
所以，GPU 是使用 SIMD ALUs 执行标量指令，从而达到和 CPU 执行矢量指令相同的效果。
在这里插入图片描述