配套教材:
Computer Organization and Design: The Hardware / Software Interface (5th Edition)
这是专业必修课《计算机组成原理》的复习指引。建议将本复习指导与博客中的《简明操作系统原理》配合复习。
需要掌握的概念在文档中以蓝色标识,并用可读性更好的字体显示 Linux 命令和代码。代码部分语法高亮。
计算机组成原理不是语言课,本复习指导对用到的编程语言的语法的讲解也不会很细致。如果不知道代码中的一些关键字、指令或函数的具体用法,你应当自行查找相关资料。
第三章 算术
第一节 整数的四则运算
第二节 浮点
第三节 数据级并行
注意
链接:https://pan.baidu.com/s/1KqTIQs9qUwwrt3ov-qYNCw
提取码:0000
第三节 数据级并行
随着图形和音频的需求越来越强劲,CPU架构师们实现了数据级并行(data level parallelism,DLP),也称子字(亚字)并行(subword parallelism)。数据级并行在实际应用中一般说成更具体的方法,比如向量化(矢量化,vectorization)或者SIMD(single instruction multiple data,单指令多数据)。向量化计算是一种特殊的并行计算的方式,相比于一般程序在同一时间只执行一个操作的方式,它可以在同一时间执行多次操作,通常是对不同的数据同时执行同样的一个或一批指令,或者说把指令应用于一个数组 / 向量。也就是说,向量化使得一次可以对多个数据进行操作。
ARM的NEON指令集就是一种向量化的指令集。它可以并行8-bit、1

本文介绍了计算机组成原理中关于算术的第三章重点——数据级并行,特别是向量化计算。讲解了ARM的NEON、Intel的MMX/SSE/AVX等向量化的指令集,以及如何利用C++实现向量化运算,通过DGEMM运算的例子展示了向量化的效率提升。同时,提到了浮点数加法不满足结合律,以及Intel Pentium处理器的浮点除法bug事件,强调了浮点精度问题的重要性。
最低0.47元/天 解锁文章
3312

被折叠的 条评论
为什么被折叠?



