【2020/12/4修订】【梳理】计算机组成与设计第3章算术第3节数据级并行（docx）

最新推荐文章于 2024-11-23 22:44:28 发布

原创

最新推荐文章于 2024-11-23 22:44:28 发布 · 574 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了计算机组成原理中关于算术的第三章重点——数据级并行，特别是向量化计算。讲解了ARM的NEON、Intel的MMX/SSE/AVX等向量化的指令集，以及如何利用C++实现向量化运算，通过DGEMM运算的例子展示了向量化的效率提升。同时，提到了浮点数加法不满足结合律，以及Intel Pentium处理器的浮点除法bug事件，强调了浮点精度问题的重要性。

配套教材：
Computer Organization and Design: The Hardware / Software Interface (5th Edition)
这是专业必修课《计算机组成原理》的复习指引。建议将本复习指导与博客中的《简明操作系统原理》配合复习。
需要掌握的概念在文档中以蓝色标识，并用可读性更好的字体显示 Linux 命令和代码。代码部分语法高亮。
计算机组成原理不是语言课，本复习指导对用到的编程语言的语法的讲解也不会很细致。如果不知道代码中的一些关键字、指令或函数的具体用法，你应当自行查找相关资料。

第三章算术

第一节整数的四则运算

第二节浮点

第三节数据级并行

注意

链接：https://pan.baidu.com/s/1KqTIQs9qUwwrt3ov-qYNCw
提取码：0000

第三节数据级并行
随着图形和音频的需求越来越强劲，CPU架构师们实现了数据级并行（data level parallelism，DLP），也称子字（亚字）并行（subword parallelism）。数据级并行在实际应用中一般说成更具体的方法，比如向量化（矢量化，vectorization）或者SIMD（single instruction multiple data，单指令多数据）。向量化计算是一种特殊的并行计算的方式，相比于一般程序在同一时间只执行一个操作的方式，它可以在同一时间执行多次操作，通常是对不同的数据同时执行同样的一个或一批指令，或者说把指令应用于一个数组 / 向量。也就是说，向量化使得一次可以对多个数据进行操作。

ARM的NEON指令集就是一种向量化的指令集。它可以并行8-bit、1